Как найти часто встречающиеся тексте последовательности?

Question

anikavoi @anikavoi

C++

Как найти часто встречающиеся тексте последовательности?

Есть большой текстовый файл. Около 120 гигабайт русскоязычного текста.
Нужно найти 30-40 наиболее часто встречающихся последовательностей символов, длиной более 4-5 символов.
С помощью чего можно решить эту задачу?
Если есть стандартные программы - отлично.
Если есть исходники на c\c++, rust, nim - хорошо.
На худой конец подскажите алгоритм (писать очень не хочется, занятость сильная, но куда деться в крайнем случае)

Спасибо!

Вопрос задан более трёх лет назад
169 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++

12 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unreal Engine + ИИ

9 месяцев

Далее
Stepik

Профессия: Разработчик C++ (Junior)

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

3 комментария

anikavoi @anikavoi Автор вопроса

120 гиг запулить в память с довеском структур хешмапа?
Вы сейчас пошутили, да?

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

anikavoi, вовсе нет. Если смущает размер можно заменить std::string на целочисленный хэш. После нахождения хэшей-лидеров можно восстановить исходные символьные последовательности вторым проходом.

Написано более трёх лет назад
anikavoi @anikavoi Автор вопроса

jcmvbkbc, кажется я понял о чем речь.
Завтра попробую. Спасибо!

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 08 июл.
- 106 просмотров
1

ответ
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 1 подписчик
- 07 июл.
- 62 просмотра
1

ответ
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 103 просмотра
1

ответ
C++

Сложный
Концепт проверки совместимости с шаблонным конструктором?
- 1 подписчик
- 25 июн.
- 95 просмотров
1

ответ
C++

Простой
Я единственный у кого cppreference.com через раз падает с ERR_TIMED_OUT?
- 1 подписчик
- 21 июн.
- 176 просмотров
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 106 просмотров
1

ответ
C++

+3 ещё

Простой
Почему бинарник скомпилированный через CMake весит больше, чем напрямую скомпилированный через clang++?
- 1 подписчик
- 11 июн.
- 318 просмотров
1

ответ
C++

+2 ещё

Простой
Как настроить clangd на видимость всех файлов, чтобы не указывать относительные пути в include?
- 1 подписчик
- 10 июн.
- 103 просмотра
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1339 просмотров
10

ответов
C++

+1 ещё

Простой
В Терминал С++ выводятся неизвестные символы?
- 1 подписчик
- 05 июн.
- 185 просмотров
3

ответа
Показать ещё Загружается…

anikavoi дорогой пользователь, настоятельно рекомендуем еще раз обратить самое пристальное внимание на п. 3.1 регламента работы сервиса (и, в особенности, на его последний абзац). В противном случае, ваши вопросы будут удаляться по причине тег-спама, а систематические нарушения приведут к блокировке учетной записи.
Модератор, прошу прощения, но мне действительно подойдет любое из решений, или алгоритм, или исходник, или решение средствами утилит линукс, поэтому я и поставил три тэга.
Буду аккуратнее.

Answer 1 · 2020-04-26 11:11:21

Обратите внимание, что std::string использует SBO, то есть не выделяет доп. память в куче для коротких строк. Ещё стандартные мапы в C++ крайне неэффективны, подключите библиотеку. Идея такова:

Хешмап "строки -> счётчики" для строк длины 3
Хешмап "строки -> счётчики" для строк длины 4, но добавляем туда только строки, у которых начало длины 3 входит в мапу из (1) не менее 2 раз
Хешмап "строки -> счётчики" для строк длины 5, но добавляем туда только строки, у которых начало длины 4 входит в мапу из (2) не менее 2 раз

Answer 2 · 2020-04-26 03:43:00

С помощью чего можно решить эту задачу?

С помощью массива std::hashmap<std::string, size_t>, по одному для последовательности каждой длины?

Answer 3 · 2020-04-26 12:08:39

120 гигабайт - это размер еще не Биг-дата но уже близкий к выходу за рамки оперативной памяти. Если исходный материал побит на файлы (небольшого размера) то я-бы предложил решать эту задачу через map-reduce.

Если удасться это сделать то реализация написанная на Python может работать быстрее во много раз за счет параллелизма. Я не говорю что на С++ не надо делать. Я просто акцентирую внимание что задача имеет специфику распаралелливания. Грубо говоря задача тяготеет к big-data и шаблонам паралельного процессинга для которых язык не особо важен а важна имеено эта опция.

По алгоритму. Ну я +1 к Антону.

Как найти часто встречающиеся тексте последовательности?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт