Как организовать вывод часто встречающихся слов и выражений в тексте?

Question

Arzon @Arzon

Как организовать вывод часто встречающихся слов и выражений в тексте?

Доброго времени суток.
Отчасти из любопытства, а от части из желания организовать более подробную информацию о книгах в библиотеке, понадобилось организовать вывод часто встречающихся слов и выражений в тексте.
Пример: Н. В.Гоголь. Сочинения. ОЛМА Медиа Групп, 2002 - В...
Только не обязательно облаком, можно (и даже желательно) по частоте использования.

Имеется похожий вопрос https://toster.ru/q/95529, там рекомендовали разные движки Sphinx, elasticsearch. Но это вроде как поисковики. Не существует ли более-менее готовых решений?

Тут просто нюанс:
В языках практически не разбираюсь, с английским на "Вы", а через VBA Word сомневаюсь, что задача решается. Хоть с ним и много тем, но обычно вижу задания по университету или с простым набором слов. Для книг наврятли подойдет.

Если же кроме Sphinx или elasticsearch ничего не остается надеюсь на помощь с литературой.

Вопрос задан более трёх лет назад
330 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Алгоритмы и структуры данных для разработчиков

3 месяца

Далее
Яндекс Практикум

Алгоритмы и структуры данных

4 месяца

Далее
Stepik

Алгоритмы и структуры данных

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 286 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 202 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 206 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 175 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 343 просмотра
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 181 просмотр
1

ответ
Алгоритмы

Сложный
Поиск оптимального маршрута с наимешьшим влиянием на цену в сети ethereum?
- 1 подписчик
- 29 авг.
- 157 просмотров
2

ответа
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 22 авг.
- 244 просмотра
2

ответа
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 192 просмотра
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 316 просмотров
3

ответа
Показать ещё Загружается…

Разработчик Blender / 3D Technical Artist

Академия Компьютерных Технологий и Дизайна

от 94 000 ₽

Backend developer/ software engineer (Python) в команду DCIM

Яндекс • Москва

от 350 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Answer 1 · 2015-10-21 18:43:17

Разбиваете текст на слова, потом в map<слово, сколько_встретилось> все новые слова. Для всех старых увеличиваете счетчик.

Answer 2 · 2016-04-03 11:56:09

Добавлю свой вариант.
Наткнулся на сервис от Мультитран - www.multitran.ru/c/m.exe
На пробу скопировал и вставил текст из "Короленко В. Дети подземелья.fb2"
В итоге получил "Статистика для текста". Всего слов - 12670. Это с союзами типа "и" - 521 раз и не убранными переносами.
Отфильтровывать слова от можно и глазами, наиболее популярным вышли слова "она" - 166,
"мой" - 80, "все" - 68, "отец" - 65, "ты" - 64, "когда" - 63, "быть" - 62, "рука" - 59.
Кое уже можно представить о содержании. Вполне сносно, если учесть, что никаких знаний языков не требуется.

Как организовать вывод часто встречающихся слов и выражений в тексте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт