Существует ли быстрый алгоритм поиска общих подстрок во множестве больших строк?

Question

GaalSpear @GaalSpear

Существует ли быстрый алгоритм поиска общих подстрок во множестве больших строк?

Есть много строк большой (неограниченной) длины. Необходимо найти в них общие подстроки длины больше N. Существует ли готовый быстрый алгоритм для этого? Или только эвристические алгоритмы и только переборы? Что, как я вижу, нереализуемо?

На практике задача выглядит примерно так. Есть множество строк байтов разной длины, от 0 и до бесконечности, 75 процентов строк средней длины 1 гигабайт. Самая длинная строка - 150 гигабайт, самая короткая - 2 килобайта. Необходимо найти общие подстроки длины больше N, то есть, указать, что, например, строки с номерами x1, x2, x3, x4, ..., x153, имеют общую подстроку длины N+1234, начинающуюся в каждой строке с номера y1, y2, ... и т.д. На текущий момент есть 70 терабайт строк, они находятся на двенадцати компьютерах с 8 Гб RAM и процессорами i3 на 4 ядра. На каждом компьютере стоит три диска - системный на 2 Тб, и с данными - 2 hdd на 8 терабайт. Сеть 1 ГБит.

Писать думаю на C++. После того, как определюсь с концепцией - какие то куски буду переписывать на ассемблере.

Возможно ли это в принципе за разумное время сделать?

Вопрос задан более двух лет назад
857 просмотров

18 комментариев

Подписаться 4 Сложный 18 комментариев

Adamos @Adamos

Что это за строки? Если нужно просто найти общие слова - так это делается разбиением и индексацией каждой строки, а потом работой с индексами. Если же вам нужно любое побайтовое совпадение - словари получатся космических масштабов, не вариант.

Написано более двух лет назад
GaalSpear @GaalSpear Автор вопроса

это именно строки байтов. в них нет никаких закономерностей, никаких слов, кроме разве что факта того, что где-то в середине разные строки могут содержать общую подстроку.

Написано более двух лет назад
mayton2019 @mayton2019

Что-то с биологией или генетикой?

Написано более двух лет назад
Akina @Akina

Есть много строк большой (неограниченной) длины.

Что хоть за строки-то? что-то типа осмысленного текста, или визуально-рандомное содержимое типа ошмётков ДНК?
Насколько велик словарь этих строк?

Необходимо найти в них общие подстроки длины больше N.

Каково значение N? Хотя бы порядок?

Возможно ли это в принципе за разумное время сделать?

Парную задачу - вероятно, да. В голову почему-то лезут суффиксные деревья...
А прожевать весь массив - ну сильно вряд ли.

Написано более двух лет назад
Adamos @Adamos

GaalSpear, дык при таком объеме они просто по теории вероятности непременно содержат общие подстроки для небольших N. Даже внутри одной строки.
Надо все-таки искать частности и вычленять, что именно интересует. Иначе в решении перемножаются терабайты на терабайты, и привет суперкомпьютерам.

Написано более двух лет назад
GaalSpear @GaalSpear Автор вопроса

mayton2019, нет. строки - это потоки входных и выходных данных с некоторого цифрового чипа. и чип этот тестируется на определённые виды специфических глюков. собственно, общие подстроки - это момент когда чип переключается в режим raw передачи данных со входа на выход, и не изменяет данные так, как должен. это и есть глюк. но да, согласен, задача чем то похожа на штуки из обработки последовательностей ДНК.

Написано более двух лет назад
GaalSpear @GaalSpear Автор вопроса

UPD. (предыдущий комментарий криво написан и вводит в заблуждение). просто сравнивать пары вход-выход нельзя. входов и выходов суммарно - больше 100 штук, внутри схема имеет структуру группы связанных ПЛИС с памятью около 18 мегабайт - соответственно, ситуацию, когда системой было запомнено несколько мегабайт данных, а потом передано в выходной поток через десять минут - также необходимо отслеживать.

Написано более двух лет назад
Wataru @wataru Куратор тега C++

GaalSpear, а что надо вывести в этом примере? N=1, aabb, aacc, bbdd, ccbb?

Написано более двух лет назад
GaalSpear @GaalSpear Автор вопроса

Akina,

Что хоть за строки-то?

Нет, данные очень близки к рэндому. Если в них и есть какие структуры или закономерности - о них неизвестно, и распределение даже блоков по 4 байта выглядит равномерным.

Каково значение N? Хотя бы порядок?

например, хотя бы, одно фиксированное значение - 32768.

Написано более двух лет назад
GaalSpear @GaalSpear Автор вопроса

Akina,

Насколько велик словарь этих строк?

Не понимаю, что имеется в виду.
Если их разбивать на блоки, например, по фиксированному количеству байт, или по кусками, начинающимся с конкретного байта, или с конкретной пары байт - то выделить что-либо не удаётся. данные ведут себя как рэндом. есть предположение, что данные - это результат работы поточного шифра ... ну то есть рэндом, не подлежащий распознаванию.

Написано более двух лет назад
Akina @Akina

Не понимаю, что имеется в виду.

Я имел в виду количество возможных значений одного символа. Но если данные бинарные, то размер словаря = 256, и вопрос отпадает.

Написано более двух лет назад
GaalSpear @GaalSpear Автор вопроса

Wataru,

а что надо вывести в этом примере? N=1, aabb, aacc, bbdd, ccbb?

Минимально: строки (1, 2), (1, 3), (1, 4), (2, 4), (3, 4) содержат общие подстроки длины N=1.
Желательно:
1: строки 1 и 2, общая часть начиная с символов 1 и 1, длина подстроки 2.
2: строки 1 и 3, общая часть начиная с символов 3 и 1, длина подстроки 2.
3: строки 1 и 4, общая часть начиная с символов 3 и 3, длина подстроки 2.
4: строки 2 и 4, общая часть начиная с символов 3 и 1, длина подстроки 2.
5: строки 3 и 4, общая часть начиная с символов 1 и 4, длина подстроки 2.

Конкретно в моём случае будет так: 100 тысяч строк есть всего на входе, на выходе - сто групп по двадцать строк в группе, для каждой группы есть одна общая подстрока. Желательно конечно указывать и другие подстроки, т.е., если какую-то подстроку мы уже нашли - то дальше формируя выход, мы конкретно её уже не ищем, но для начала нужно хотя бы как нибудь.

UPD. тут в ответе на вопрос немного упрощено - но как мне кажется - формат вывода - не суть важно, группами по 2 строки выводить, или по бОльшему количеству.

Написано более двух лет назад
Wataru @wataru Куратор тега C++

GaalSpear, Поскольку в задаче "больше N" я предполагал, что будут искаться подстроки длины хотя бы 2. Но вот вопрос: "aabb" и "aacc" имеют общую строку "aa". А "aabb" с "bbdd" - "bb". эти три строки групируются вместе или нет? А что делать, если строка "bbdd" еще и с "dddd" имеет совпадение?

В общем случае у вас есть тупо граф из вершин-строк и какие-то пары соеденины ребром "есть общая подстрока". Как это выводить и групировать все непонятно. Ведь структура может быть любая. Если выдвать все пары, то у вас предполагается десятки тысяч строк (70терабайт/ средний размер 1гб) и если там много совпадений - то это будут сотни миллионов пар в ответе.

И заодно, А какое у вас предполагается значение N?

Еще важный вопрос - вам надо найти любое совпадение длины хотябы N, или вам надо в задаче искать максимальное совпадение любых двух строк?

Еще, раз вы сказали про чим с сотнями входов-выходов, то казалось бы, вам не надо сравнивать все строки со всеми. Они как-то сгруппированы же по тестам должны быть? Ведь завтра чип не может выдать то, что в него вводили вчера? Потом, искать общие подстроки среди только входов вам тоже не надо же?
Можете как-то разбить вашу задачу на много более мелких по количеству строк за счет этого?

Написано более двух лет назад
mayton2019 @mayton2019

GaalSpear, странная методика тестирования. Мне кажется - достаточно дорогая в реализации. Можно было как-то больше гипотез вызвинуть об искомом шаблоне. Иначе получим транс-вычислительную задачу.

Вобщем по поиску строк из теории я помню КМП и Боуер-Мур. Ввиду того что у нас нет никаких шаблонов - практически невозможно построить эффективный индекс.

Как можно оптимизировать по скорости? Я думаю в вашем случае - только экстенсивно. Наращивая количество узлов в вашем кластере. Сколько у вас? 12 executors. Вот разделите ваш датасет по хешу на 12 partitions. И пускай каждый исполнитель работает над своим объемом. Не забывайте про fork-join. Освободившиеся исполнители обязаны взять часть работы у других которые еще работают. Потом в конце их результаты надо свести в общий итог.

Что можно поисследовать. Можно построить гистограмму "тригамм". И если какие-то триграммы будут иметь больше количество попаданий - то надо идти за ними в строку и делать соотв. поиск вправо и влево добиваясь макимасльного соотвествия. Учитывая длины строк (по 150Г) возможно я не прав и триграмм будет мало. Берите "квадро-граммы", "квинто-граммы" и так далее до достижения более яркого проявления подстрок-дублей.

Написано более двух лет назад
GaalSpear @GaalSpear Автор вопроса

Wataru,
Спасибо большое за ответ. Мне нужны примерно сутки на то, чтобы вытащить более качественную информацию о структуре ответа. Скорее всего она проще, чем в исходной формулировке. Напишу комментарий не позже чем завтра в это же время.

Сейчас уже точно известно, что N фиксированное, и равно 32768. Постараюсь ввести другие ограничение на исходные данные.

Написано более двух лет назад
GaalSpear @GaalSpear Автор вопроса

mayton2019, Спасибо большое! А триграммы - это имеется в виду три подряд идущих символа строки, да?

странная методика тестирования.

ну да, но пока ничего лучше нет, и с документацией на чип всё очень плохо.

Можно построить гистограмму "тригамм"

сейчас сделаю, завтра напишу что получилось.

Написано более двух лет назад
mayton2019 @mayton2019

GaalSpear, ну как?

Написано более двух лет назад
Wataru @wataru Куратор тега C++

GaalSpear, все еще ждем уточнений по стоуктуре ответа.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Разработчик C++

9 месяцев

Далее
Яндекс Практикум

Мидл разработчик С++

4 месяца

Далее
Яндекс Практикум

Разработчик C++ расширенный

12 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

Простой
Как понять что переполняет память в C++?
- 1 подписчик
- 01 нояб.
- 195 просмотров
1

ответ
C++

Средний
Как исправить некорректное отображение кириллицы?
- 1 подписчик
- 30 окт.
- 173 просмотра
3

ответа
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 199 просмотров
1

ответ
Компьютерные сети

+1 ещё

Средний
Как обнаружить сканирование портов по логу сетевого трафика?
- 7 подписчиков
- 29 окт.
- 3018 просмотров
1

ответ
C++

Простой
Какой подход выбрать для представления Chunk?
- 1 подписчик
- 28 окт.
- 170 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 146 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 179 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 153 просмотра
0

ответов
C++

+2 ещё

Простой
Как подключить SFML к Clion на MacOs?
- 1 подписчик
- 14 окт.
- 92 просмотра
1

ответ
C++

Средний
Как определить виртуальные методы в полной специализации шаблона?
- 1 подписчик
- 13 окт.
- 66 просмотров
1

ответ
Показать ещё Загружается…

Frontend Developer/ Vue.js

DevTeam.Space • Москва

от 1 000 до 3 000 $

SRE/DevOps инженер

Сбер • Москва

от 200 000 до 300 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Что это за строки? Если нужно просто найти общие слова - так это делается разбиением и индексацией каждой строки, а потом работой с индексами. Если же вам нужно любое побайтовое совпадение - словари получатся космических масштабов, не вариант.
это именно строки байтов. в них нет никаких закономерностей, никаких слов, кроме разве что факта того, что где-то в середине разные строки могут содержать общую подстроку.
Что-то с биологией или генетикой?
Есть много строк большой (неограниченной) длины.

Что хоть за строки-то? что-то типа осмысленного текста, или визуально-рандомное содержимое типа ошмётков ДНК?
Насколько велик словарь этих строк?

Необходимо найти в них общие подстроки длины больше N.

Каково значение N? Хотя бы порядок?

Возможно ли это в принципе за разумное время сделать?

Парную задачу - вероятно, да. В голову почему-то лезут суффиксные деревья...
А прожевать весь массив - ну сильно вряд ли.
GaalSpear, дык при таком объеме они просто по теории вероятности непременно содержат общие подстроки для небольших N. Даже внутри одной строки.
Надо все-таки искать частности и вычленять, что именно интересует. Иначе в решении перемножаются терабайты на терабайты, и привет суперкомпьютерам.
mayton2019, нет. строки - это потоки входных и выходных данных с некоторого цифрового чипа. и чип этот тестируется на определённые виды специфических глюков. собственно, общие подстроки - это момент когда чип переключается в режим raw передачи данных со входа на выход, и не изменяет данные так, как должен. это и есть глюк. но да, согласен, задача чем то похожа на штуки из обработки последовательностей ДНК.
UPD. (предыдущий комментарий криво написан и вводит в заблуждение). просто сравнивать пары вход-выход нельзя. входов и выходов суммарно - больше 100 штук, внутри схема имеет структуру группы связанных ПЛИС с памятью около 18 мегабайт - соответственно, ситуацию, когда системой было запомнено несколько мегабайт данных, а потом передано в выходной поток через десять минут - также необходимо отслеживать.
GaalSpear, а что надо вывести в этом примере? N=1, aabb, aacc, bbdd, ccbb?
Akina,

Что хоть за строки-то?

Нет, данные очень близки к рэндому. Если в них и есть какие структуры или закономерности - о них неизвестно, и распределение даже блоков по 4 байта выглядит равномерным.

Каково значение N? Хотя бы порядок?

например, хотя бы, одно фиксированное значение - 32768.
Akina,

Насколько велик словарь этих строк?

Не понимаю, что имеется в виду.
Если их разбивать на блоки, например, по фиксированному количеству байт, или по кусками, начинающимся с конкретного байта, или с конкретной пары байт - то выделить что-либо не удаётся. данные ведут себя как рэндом. есть предположение, что данные - это результат работы поточного шифра ... ну то есть рэндом, не подлежащий распознаванию.
Не понимаю, что имеется в виду.

Я имел в виду количество возможных значений одного символа. Но если данные бинарные, то размер словаря = 256, и вопрос отпадает.
Wataru,

а что надо вывести в этом примере? N=1, aabb, aacc, bbdd, ccbb?

Минимально: строки (1, 2), (1, 3), (1, 4), (2, 4), (3, 4) содержат общие подстроки длины N=1.
Желательно:
1: строки 1 и 2, общая часть начиная с символов 1 и 1, длина подстроки 2.
2: строки 1 и 3, общая часть начиная с символов 3 и 1, длина подстроки 2.
3: строки 1 и 4, общая часть начиная с символов 3 и 3, длина подстроки 2.
4: строки 2 и 4, общая часть начиная с символов 3 и 1, длина подстроки 2.
5: строки 3 и 4, общая часть начиная с символов 1 и 4, длина подстроки 2.

Конкретно в моём случае будет так: 100 тысяч строк есть всего на входе, на выходе - сто групп по двадцать строк в группе, для каждой группы есть одна общая подстрока. Желательно конечно указывать и другие подстроки, т.е., если какую-то подстроку мы уже нашли - то дальше формируя выход, мы конкретно её уже не ищем, но для начала нужно хотя бы как нибудь.

UPD. тут в ответе на вопрос немного упрощено - но как мне кажется - формат вывода - не суть важно, группами по 2 строки выводить, или по бОльшему количеству.
Wataru,
Спасибо большое за ответ. Мне нужны примерно сутки на то, чтобы вытащить более качественную информацию о структуре ответа. Скорее всего она проще, чем в исходной формулировке. Напишу комментарий не позже чем завтра в это же время.

Сейчас уже точно известно, что N фиксированное, и равно 32768. Постараюсь ввести другие ограничение на исходные данные.
mayton2019, Спасибо большое! А триграммы - это имеется в виду три подряд идущих символа строки, да?

странная методика тестирования.

ну да, но пока ничего лучше нет, и с документацией на чип всё очень плохо.

Можно построить гистограмму "тригамм"

сейчас сделаю, завтра напишу что получилось.
GaalSpear, все еще ждем уточнений по стоуктуре ответа.

Answer 1 · 2022-11-17 17:41:42

Пока главная проблема, что надо сравнивать все строки со всеми. Если бы их поделить на какие-то части, когда сравнивается не так много строк, пусть даже этих частей много, то задача решается Гораздо проще.

Один вариант относительно быстрого поиска одинаковых подстрок - это суффиксные деревья. Придется много поломать голову, как хранить эффективно 256 ссылок на детей так, чтобы дерево не занимало в тысячи раз больше чем вохдная строка, но это возможно. Например, хранить отсортированный список исходящих символов в каждой вершине.

Вот построили вы деревья для всех строк, дальше надо их попарно сравнить простым рекурсивным обходом. Если оба дерева содержат переход по какому-то символу, рукурсивно идите по нему. Если дошли до глубины N - вы нашли совпадение. Можно вообще идти пока не обломитесь и взять максимальную глубину. Такой обход обойдет дерево один раз для каждой пары строк. Да, еще надо будет хорошенько потрахаться с хранением дерева на диске и подгрузкой его кусками, ибо в оперативку оно все не поместится никак.

Второй вариант, возможно более подходящий для таких объемов данных - это полиномиальные хеши. Можно для каждой строки вычислить L-N+1 хешей для всех подстрок длины N. Первый хеш считается тупо по формуле, а дальше дописывание одного символа справа и удаление одного символа слева можно за 2 операции пересчитать. Вот так вы быстро, за линейное время, можете построить все хеши для одной строки. Запишите их в файл, отсортируйте его (гуглите - известная задача сортировки очень большого файла). А потом операцией слияния можно найти повторяющиеся числа во всех файлах.

Более того, можно не сравнивать каждый файл с каждым, а выполнять слияние сразу на всех файлах. Для этого надо завести приоритетную очередь, она же куча, она же heap, в которую складывать текущие числа из всех файлов (по одному из файла) вместе с указателем на сам файл. Вам надо из этой очереди вынуть минимальное число, и потом вынимать дальше, пока минимум в очереди не изменился. Т.е. вынуть все одинаковые минимальные числа. Файлы, на которые они указывают - это строки с совпадениями. Пометьте это где-то, и для каждого файла прочитайте следующее число и положите его в очередь.

Ну, еще надо будет проверить, а не коллизия ли совпадение хеша и действительно сравнить строки. Поэтому вместе с хешами надо будет еще хранить позиции, где они были насчитаны. Тут же можно будет и расширить совпадение, если оно оказалось длиннее N.

Если совпадений не очень много это будет работать довольно быстро, отлично параллелится (сортировка разных файлов).

Если все-таки надо искать совпадения по всем строкам глобально, то придется помучиться. Разбейте ваши данные на K частей примерно одинакового размера так, что каждый компьютер может обработать по 2 части, а хранить хотя бы по 3 части.

В идеале у вас должно быть еще и K/2 компьютеров, иначе схема усложняется.

Надо будет провести K-1 раундов. На первом раунде части 1 и 2 лежат на компьютере 1, части 3 и 4 на втором, и т.д. На втором раунде вы храните части 2 и 3 на компе 1, 4 и 5 на компе 2 ... K и 1 на последнем. При переходе между раундами каждый комп отдает одну часть куда-то, и одну откуда-то получает. На третьем и четвертом раунде вы обрабатываете все пары, в которых вторая часть имеет номер на 2 больше первой части (если брать по модулю K). И так далее. На последнем раунде будут обрабатываться пары, где одно число больше другого на (K-1)/2.

Например, для K=4 вы получаете такие пары на компах:

1. (1,2) (3,4)
2. (2,3) (4,1)
3. (1 3) (2 4)

Тут надо порисовать и составить схему так, чтобы поменьше данных перекладывалось. Для некоторых K так красиво не получится, и какие-то компы будут простаивать на каких-то раундах.

По поводу оптимизаций - узкое место будет загрузка данных с диска и передача их по сети. Ассемблером баловаться тут смысла нет особо. Запускайте кучу потоков, чтобы диск не простаивал. Еще репликацию данных можно запускать параллельно с обработкой предыдущего куска, если места хватает.

Answer 2 · 2022-11-25 11:09:42

В grep реализовн умный алгоритм поиска вхождения подстроки в строку. А именно берется фрагмент строки по длине равный подстроке и сравнивается последний символ. Если символ совпадает с подстрокой, то сравнивается предпоследний, и т.д. если на каком-то этапе символы разные -- то сразу указатель текущей работы перемещается на + длина_искомой_подстроки .. т.о. можно увеличить производительность в N-раз.

https://www.gnu.org/software/grep/manual/grep.html... -- там в конце есть список алгоритмов, может поможет.

Существует ли быстрый алгоритм поиска общих подстрок во множестве больших строк?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт