Как посчитать количество повторяющихся букв (отрезков) в наборе слов?

Question

Алексей Николаев @Heian

Ашот

Как посчитать количество повторяющихся букв (отрезков) в наборе слов?

Нужно из массива слов выделить те, у которых повторяется начало, т.е. посчитать слова, которые имеют больше всего вероятности семантической сходности. Например, "автострада" и "автомобиль" попадут в конечную выдачу. Это можно сделать несколькими вложенными циклами (циклы вообще заменяют почти любой алгоритм), но красота и скорость такого решения стоит под огромным сомнением...

Как бы попробовали реализовать нечто эдакое вы? Как вообще можно такое реализовать (может, существуют известные алгоритмы)?

P.S. библиотеки (вроде phpMorphy) возможны, но нежелательны.

Вопрос задан более трёх лет назад
4498 просмотров

1 комментарий

Подписаться 6 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 198 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 444 просмотра
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 242 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 314 просмотров
0

ответов
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2461 просмотр
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 338 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 182 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 250 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2014-11-01 20:08:49

если массив слов большой, предлагаю создать ориентированные деревья, узлом которой будет буква, вершина - первая буква слова, во втором уровне будут вторые буквы и т.д. до конца всех слов. И количество сходностей можно будет определить количеством узлом, уровень сходности - уровнем узла. Пример:
Слова Автострада, Автомобиль Авиация
Граф:

А - В - Т - О - С - Т - Р - А - Д - А
    |       |
    И       М - О - Й - К - А
    |       |
    А       О
    |       |
    Ц       Б
    |       |
    И       И
    |       |
    Я       Л
            |
            Ь

Такие деревья надо создать для каждой буквы, с которой начинаются слова в словаре

Answer 2 · 2014-11-01 20:15:23

Угу. Туда же попадут "автор", "автохтон", "автобиография", "автомат"... А уж слова с приставками... По хорошему, надо разделять слова на приставку, корень (корни), суффикс и окончание, для чего желательно знать, как минимум роль слова в предложении (и то может не помочь, попробуйте разобрать "Косил косой косой косой" - да, тот самый заяц на поляне, да ещё и коса кривая.
Но если так хочется - строите дерево, где каждый уровень - следующая буква слова, а в узлах и листьях стоят счётчики количества слов. Для слов "автомобиль", "авто" и "автострада" получаем:

.                   +-м(1)-о(1)-б(1)-и(1)-л(1)-ь(1)
.а(3)-в(3)-т(3)-о(3)+
.                   +-с(1)-т(1)-р(1)-а(1)-д(1)-а(1)

Затем обходим дерево, там где сумма счётчиков в дочерних узлах не равна счётчику в родительском - заканчивается слово, а разность между суммами даёт количество этих слов в тексте.

Answer 3 · 2014-11-02 14:27:14

Илья Плотников @ilyaplot

PHP программист

Возможно, следует использовать sphinx?

Ответ написан более трёх лет назад

1 комментарий

Answer 4 · 2014-11-06 13:41:41

Сдесь описывается немного другая задача, но может натолкнет на какие-то идеи (если хочется разбираться в вопросе).
habrahabr.ru/post/190694
Еще можете погуглить стиммеры и лематизаторы.

Как посчитать количество повторяющихся букв (отрезков) в наборе слов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт