Какой алгоритм использовать для нахождения повторяющихся слов в строке?

Question

Aleksandr Govorukhin @SnapSh0t

iOS-Developer

Алгоритмы

Какой алгоритм использовать для нахождения повторяющихся слов в строке?

Здравствуйте, друзья!

Подскажите алгоритм для нахождения повторяющихся слов в строке.

P.S. для небольшого количества слов можно записать двойной цикл для сравнения, но такой подход является неэффективным для большого количества слов - он не подходит для одного миллиона слов и т.д.

Вопрос задан более трёх лет назад
1343 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

9 комментариев

Пригласить эксперта

Ответы на вопрос 5

3 комментария

Виталий Пухов @Neuroware

решение хорошее, но база имхо тут лишняя, т.к. будет слишком много потрачено времени на операции вставки или selectы из базы, в памяти это отработает в сотни раз быстрее

Написано более трёх лет назад
Виталий Пухов @Neuroware

MaxKorz: милион слов это в худшем случае сотня мегабайт памяти, и то если очень криво структуры построены

Написано более трёх лет назад
mib @mib

в вопросе речь идет об алгоритме, который просто отличается от перебора цикла в цикле, не дано ни ось ни язык програмирования ни ограничения по времени/памяти и тд

Написано более трёх лет назад

10 комментариев

Никита Воронцов @VNSB18E1

Только сортировка займет O(n*log(n)), против O(n) для случая со словарем.

Написано более трёх лет назад
Армянское Радио @gbg

Никита Воронцов: А как вы думаете, словарь как-то иначе создается?

Написано более трёх лет назад
Никита Воронцов @VNSB18E1

Армянское Радио: разумеется, нет никакой связи между сортировкой и созданием словаря. Под словарем я имел ввиду хэш-таблицу кстати, поправляюсь.

Написано более трёх лет назад
Никита Воронцов @VNSB18E1

P.S. Если же вы имели ввиду, что создание словаря имеет сложность O(n*log(n)), то это только для случаев, когда словарь представлен списком и нужно каждый раз его проходить, чтобы определить, что инкрементить. В случае же константного времени доступа log(n) превращается в k и мы имеем O(n*k) -> O(n). Константное время доступа реализуется в хэш-таблицах.

Написано более трёх лет назад
Армянское Радио @gbg

Никита Воронцов: И как же по-вашему будет работать хэш-таблица, не использующая сортировку? Она строится так, чтобы в процессе построения сортировка сохранялась.

В моем алгоритме, можно использовать и такие структуры. Однако, проблема в том, что тогда будет труднее сделать решение параллельным.

Написано более трёх лет назад
Никита Воронцов @VNSB18E1

Армянское Радио: не понял, зачем строить хэш-таблицу так, чтобы сортировка сохранялась? В этом нет нужды и обычно это не реализовано в стандартных хэш-таблицах.

Написано более трёх лет назад
Никита Воронцов @VNSB18E1

Да и сделать его параллельным не сложно - просто разбиваешь список слов на подсписки и для каждого считаешь, потом таблицы сливаешь.

Написано более трёх лет назад
Армянское Радио @gbg

Никита Воронцов: Как вы собираетесь что-то "быстро" искать в несортированной хэш-таблице?

Хэши хранятся в самосортирующейся структуре данных, каком-либо дереве.

Написано более трёх лет назад
Никита Воронцов @VNSB18E1

Армянское Радио: *рука-лицо*... иди учи как работают хэш-таблицы.

Написано более трёх лет назад
Армянское Радио @gbg

Никита Воронцов: Начнем с того, что реализаций таких таблиц довольно много, поэтому огульно отправлять что-то там учить, как минимум, некорректно. Некоторые так и вовсе в случае коллизии начинают работать как линейный поиск.

Пока автор не обозначит масштаб трагедии, что-то обсуждать-смысла нет.

Написано более трёх лет назад

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 314 просмотров
0

ответов
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 383 просмотра
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 217 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 276 просмотров
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 425 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 401 просмотр
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 293 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 250 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 234 просмотра
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт. 2025
- 390 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2016-03-05 11:55:59

Задача поставлена странно, во первых ни в одном языке нет миллиона слов, а используется в среднем от 3 до 10 тыс. То есть задача для миллиона в корне неверна. В любом случае как минимум 1 проход потребуется в любом случае, я бы сделал так.
1. Создание dictionary слов и их количества
2. Проход по очереди всех слов
3. Поиск текущего слова в списке, если его там нет добавляем в список и количество выставляем в 1, если есть +1 к количеству

В итоге получаем 1 проход по всему тексту и обращение по индексу к dictionary, которое стоит относительно дешево, намного дешевле перебора всего списка.

Похожий подход применял для анализа текстов, в итоге для 20 книг ~500 стр каждая уходило около 3-5 секунд.
Для C# это выглядит так

Answer 2 · 2016-03-05 11:57:49

Можно использовать наивный метод: в базе данных создать таблицу `table`: `word`|`count_words` (primary key `word`). Потом брать все слова по порядку, и добавлять в таблицу. Если такое слово уже есть - увеличивать его количество повторений на 1, примерно так:
INSERT INTO `table` (`word`) VALUES ('$new_word') ON DUPLICATE KEY UPDATE `count_words`=`count_words`+1;

В любом языке не так уж много слов, ну к примеру 50 000, а тескт может быть сколь угодно большим.

А потом сделать выборку, сортированную по количеству повторений.
То-же самое можно сделать без базы данных, при помощи хешей: слово переводить в транслит, и увеличивать счетчик соотв хеша.

Answer 3 · 2016-03-05 12:45:02

Сразу нужны уточнения - помещается ли строка в RAM?

Если помещается - за первый проход можно найти концы всех слов (положения всех пробелов в строке).

Это получится список отрезков (начал и концов слов)

Этот список сортируем по длине слов.

Получим список, в котором подряд будут идти слова равной длины.

Потом каждый кластер в этом списке сортируем в лексикографическом порядке. И считаем отсортированные дубли.

Задача прекрасно подходит для параллельной обработки.

Answer 4 · 2016-03-05 13:00:58

Dimonchik @dimonchik2013

non progredi est regredi

я извиняюсь, а
(\w+) \1
чем не подходит?
слова идут не подряд?
тогда строку в массив, сорт и ..

Ответ написан более трёх лет назад

2 комментария

Answer 5 · 2016-03-05 14:03:31

uvelichitel @uvelichitel

habrahabr.ru/users/uvelichitel

Фильтр Блума

Ответ написан более трёх лет назад

Комментировать

Answer 6 · 2016-03-05 15:59:56

А префиксное дерево не подойдет? Я бы сначала убрал бы все знаки препинания, понизил регистры, а потом его построил. Можно в каждой вершине хранить число листьей в поддереве и находить за O(1/phi) все слова, которые встречаются хотя бы phi * n раз, где n -- число всех слов.

Какой алгоритм использовать для нахождения повторяющихся слов в строке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт