Можете подсказать алгоритм поиска наиболее часто встречающихся подстрок в тексте?

Question

knott @knott

Алгоритмы

Можете подсказать алгоритм поиска наиболее часто встречающихся подстрок в тексте?

Есть текст. Необходимо найти наиболее встречающиеся подстроки в нем.

Например:

Карл у Клары украл кораллы, а Клара у Карла украла кларнет.

Здесь например должно выдать:

к (Карл, Клары, уКрал, Кораллы, Клара, Карла, уКрала, Кларнет)
а (кАрл, укрАл, корАллы, клАра, кАрла, укрАла, клАрнет),
...
клар (Клары, Клара, кларнет),
карл (Карл, Карла),
крал (украл, украла),
украл (Украл, Украла)

С алгоритмами на Вы, но предполагаю что решение O(n²) нежелательно.

Очень уж не хочется придумывать свой велосипед.

Буду очень благодарен за помощь!

Вопрос задан более трёх лет назад
7275 просмотров

1 комментарий

Подписаться 3 Оценить 1 комментарий

Да, по сути так и есть. Самыми частыми будут однобуквенные строки.
В примере выше, они находятся в списке первыми, символизируя свою высокочастотность.

Answer 1 · 2012-06-18 09:03:53

Суффиксное дерево (также на английском). Строится за линейное время, время поиска пропроционально длине искомой строки, памяти, правда, много занимает. (Забавно, что в Дискретном анализе (2003) И. В. Романовского в главе «Суффиксное дерево» дается пример как раз с этой же фразой о Карле и Кларе.)

Можете подсказать алгоритм поиска наиболее часто встречающихся подстрок в тексте?

Войдите на сайт