Можете подсказать алгоритм поиска наиболее часто встречающихся подстрок в тексте?

Question

knott @knott

Алгоритмы

Можете подсказать алгоритм поиска наиболее часто встречающихся подстрок в тексте?

Есть текст. Необходимо найти наиболее встречающиеся подстроки в нем.

Например:

Карл у Клары украл кораллы, а Клара у Карла украла кларнет.

Здесь например должно выдать:

к (Карл, Клары, уКрал, Кораллы, Клара, Карла, уКрала, Кларнет)
а (кАрл, укрАл, корАллы, клАра, кАрла, укрАла, клАрнет),
...
клар (Клары, Клара, кларнет),
карл (Карл, Карла),
крал (украл, украла),
украл (Украл, Украла)

С алгоритмами на Вы, но предполагаю что решение O(n²) нежелательно.

Очень уж не хочется придумывать свой велосипед.

Буду очень благодарен за помощь!

Вопрос задан более трёх лет назад
7301 просмотр

1 комментарий

Подписаться 3 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

4 комментария

MikhailEdoshin @MikhailEdoshin

Упс, простите, не до конца понял вопрос, хотя все равно суффиксное дерево поможет, только нужно будет к нему счетчики добавить.

Написано более трёх лет назад
leventov @leventov

Проще не счетчики добавлять, а по построенному дереву в глубину пройтись 1 раз.
И это точно верный путь:
«Functionality:… Find the most frequently occurring substrings of a minimum length (ex. 1) in O(n) time.» — со странички в английской википедии.

Написано более трёх лет назад
MikhailEdoshin @MikhailEdoshin

leventov: да, вы совершенно правы — мне почему-то показалось спросонья, что он схлопнет одинаковые строки и не будет возможности их сосчитать, хотя это вовсе не так.

Написано более трёх лет назад
knott @knott Автор вопроса

Все совпадения случайны. )
Памяти не жалко, самое главное — это время за которое отработает алгоритм.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 5

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 314 просмотров
0

ответов
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 383 просмотра
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 217 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 276 просмотров
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 425 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 401 просмотр
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 293 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 250 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 234 просмотра
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт. 2025
- 390 просмотров
1

ответ
Показать ещё Загружается…

Да, по сути так и есть. Самыми частыми будут однобуквенные строки.
В примере выше, они находятся в списке первыми, символизируя свою высокочастотность.

Answer 1 · 2012-06-18 09:03:53

Суффиксное дерево (также на английском). Строится за линейное время, время поиска пропроционально длине искомой строки, памяти, правда, много занимает. (Забавно, что в Дискретном анализе (2003) И. В. Романовского в главе «Суффиксное дерево» дается пример как раз с этой же фразой о Карле и Кларе.)

Answer 2 · 2012-06-18 06:11:28

Алексей Фирсов @lesha_firs

Тоже интересно, если кто знает желательно с помощью регулярок.

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2012-06-18 09:13:54

Я не гуру, но сдаётся мне, что O(n2) — вполне достойно, по-крайней мере в той формулировке, что я понял. Ведь результатом должен быть отсортированный массив строк размером от n (исходная строка «аа… а») до (1+n)*n/2 (исходная строка «abcd..»). С введением ограничения на размер подстроки, быть может, получится и улучшить эффективность алгоритма.
А вообще, как говорил Пайк:

Правило 3: Изощрённые алгоритмы являются медленными, если n мало, а n обычно мало. В изощрённых алгоритмах присутствуют большие константы. До тех пор, пока вы не убедитесь, что n часто становится большим, избегайте изощрённости. (Даже если n становится большим, вначале используйте правило 2).

Answer 4 · 2012-06-18 11:16:24

«Обычно» при постановке подобной задачи ставится вопрос о достаточно больших значениях n, а также о нахождении не всех, а m наиболее часто встречающихся последовательностей (в примере результата ведь нету подстроки «Карл у Клары украл кораллы, а Клара у Карла украла кларне» (исходная минус один символ), которая встречается один раз).
Соотвественно, алгоритм с n^2 плохо себя поведет.

Answer 5 · 2012-06-28 07:50:17

Я решал подобную задачу, заменяя самую часто встречающуюся пару символов новым символом (если она встречалась более трех раз) — правда, роль «символов» у меня играли слова. Самой длинной «часто встречающейся» подстрокой в «Мертвых Душах» оказалась «дама приятная во всех отношениях».

Answer 6 · 2012-06-28 06:14:24

motl @motl

Попробуйте структуру данных trie
en.wikipedia.org/wiki/Trie

Ответ написан более трёх лет назад

Комментировать

Можете подсказать алгоритм поиска наиболее часто встречающихся подстрок в тексте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт