Как получить список слов часто встречающихся в тексте?

Есть текст. Нужно разобрать его и вывести список слов, которые в нем встречаются и количество их вхождений. При этом нужен "умный" поиск, что бы учитывал словоформы и в результат они записывались в инфинитиве.

Не подскажите, как называется эта процедура? Или какие есть библиотеку для этого? Язык не важен, но предпочтительны PHP/Python/Java/Scala
  • Вопрос задан
  • 4285 просмотров
Пригласить эксперта
Ответы на вопрос 3
becks
@becks
Посмотрите на Sphinx (sphinxsearch.com/).
Процедура приведения словоформы к нормальному виду называется нормализацией (морфологическая задача). С ней хорошо может справиться и AOT (aot.ru). Для ХОРОШЕГО поиска нужно использовать уже движки (Sphinx и прочие). У Sphinx в результатах возвращается статистика по словам.
Ответ написан
pavel_salauyou
@pavel_salauyou
Symfony2 & Angular разработчик
для этого нужно использовать elasticsearch и фасеты
Ответ написан
Комментировать
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы