@Arzon

Как организовать вывод часто встречающихся слов и выражений в тексте?

Доброго времени суток.
Отчасти из любопытства, а от части из желания организовать более подробную информацию о книгах в библиотеке, понадобилось организовать вывод часто встречающихся слов и выражений в тексте.
Пример: Н. В.Гоголь. Сочинения. ОЛМА Медиа Групп, 2002 - В...
Только не обязательно облаком, можно (и даже желательно) по частоте использования.

Имеется похожий вопрос https://toster.ru/q/95529, там рекомендовали разные движки Sphinx, elasticsearch. Но это вроде как поисковики. Не существует ли более-менее готовых решений?

Тут просто нюанс:
В языках практически не разбираюсь, с английским на "Вы", а через VBA Word сомневаюсь, что задача решается. Хоть с ним и много тем, но обычно вижу задания по университету или с простым набором слов. Для книг наврятли подойдет.

Если же кроме Sphinx или elasticsearch ничего не остается надеюсь на помощь с литературой.
  • Вопрос задан
  • 329 просмотров
Пригласить эксперта
Ответы на вопрос 2
@vilgeforce
Раздолбай и программист
Разбиваете текст на слова, потом в map<слово, сколько_встретилось> все новые слова. Для всех старых увеличиваете счетчик.
Ответ написан
Комментировать
@Arzon Автор вопроса
Добавлю свой вариант.
Наткнулся на сервис от Мультитран - www.multitran.ru/c/m.exe
На пробу скопировал и вставил текст из "Короленко В. Дети подземелья.fb2"
В итоге получил "Статистика для текста". Всего слов - 12670. Это с союзами типа "и" - 521 раз и не убранными переносами.
Отфильтровывать слова от можно и глазами, наиболее популярным вышли слова "она" - 166,
"мой" - 80, "все" - 68, "отец" - 65, "ты" - 64, "когда" - 63, "быть" - 62, "рука" - 59.
Кое уже можно представить о содержании. Вполне сносно, если учесть, что никаких знаний языков не требуется.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы