Быстрый поиск по большому массиву неоднородных данных, что выбрать?

Question

zeka @zeka

Быстрый поиск по большому массиву неоднородных данных, что выбрать?

Допустим есть 10 миллионов записей, каждая в среднем около 5 килобайт.
Данные в записях не являются текстом и отчасти близки к бинарным, и составления словаря (индексация) для них не представляется возможным.

Необходимо организовать полнотекстовый поиск по этим данным.

Какую систему можете посоветовать для этой задачи, чтобы поиск был максимально быстрым (как хранить данные и как искать по ним)?

UPD:
К вопросу можно подойти с другой стороны, например — распределённые вычисления, GAE тот-же, или Amazon SimpleDB, может у кого был такой опыт?

Вопрос задан более трёх лет назад
3754 просмотра

2 комментария

Подписаться 3 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Яндекс Практикум

Инженер по тестированию

5 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Яндекс Практикум

Java-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 7

1 комментарий

Комментировать

3 комментария

Искандер Гиниятуллин @rednaxi

сам я большие объемы им не индексировал, у меня индекс меньше гигабайта занимает.
Но на конференции SphinxConf общался с людьми, которые утверждают что скармливали ему по 200+ гигабайт данных

Написано более трёх лет назад
Искандер Гиниятуллин @rednaxi

правда если у вас каждая запись 5000 байт без разделителей то сфинкс скорей всего окажется неэффективным

Написано более трёх лет назад
zeka @zeka Автор вопроса

Да, спасибо. Но с индексированием похоже ничего не выйдет.

Написано более трёх лет назад

1 комментарий

Комментировать

2 комментария

zeka @zeka Автор вопроса

Именно так. Длинна — я думаю около 20-30 символов. Выборки — сложно сказать, но больше нескольких секунд ждать не хотелось бы.

Написано более трёх лет назад
pietrovich @pietrovich

Я вообще ни разу не специалист в поисковых технологиях и обработке больших массивов данных, но если разделителей нет, то пытаться индексировать «в лоб» используя движки для поиска в тексте, имхо, бессмысленно. Я бы копал в сторону разбиения на N-граммы, например по 4 байта, и индексировал бы вхождения всех N-грамм. При длине сообщения в 4к мы получим примерно 4k N-грамм на сообщение(из-за сдвига на один, до длинны блока, чтобы выбрать все последовательности). Т.е. изыбточность у нас резко начнет зашкаливать. Но если затем искомую последовательность разбить на такие-же N-грамы то можно будет смело отбросить блоки в которых не присутствуют ВСЕ N-граммы искомой «фразы», а это будет немаленький процент. с учетом соотношения N к длине «сообщения», а потом искать обычным поиском по оставшимся блокам в порядке уменьшения, допустим, количества требуемых N-грамм в блоке.
Как-то так. Вполне возможно что для этого существуют готовые решения, но я их не знаю.

про n-граммы можно погуглить в интернетах или прямо здесь.
вот похожая задачка: habrahabr.ru/blogs/sphinx/61807/

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 166 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 211 просмотров
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 312 просмотров
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 437 просмотров
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 207 просмотров
1

ответ
Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 93 просмотра
1

ответ
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 168 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Какую базу данных нужно использовать для телеграмм бота?
- 1 подписчик
- 10 мая
- 4861 просмотр
8

ответов
Android

+2 ещё

Простой
Можно ли восстановить работоспособность смартфона xiaomi на процессоре mtk и прошивке HyperOS(stock), если нужно сохранить пользовательские данные?
- 1 подписчик
- 29 апр.
- 153 просмотра
2

ответа
IT-образование

+1 ещё

Простой
С чего начать изучение инженерной части БД?
- 2 подписчика
- 23 апр.
- 407 просмотров
3

ответа
Показать ещё Загружается…

Senior/Lead PHP Developer

Boomerangme 🎫

от 4 000 до 7 000 $

Системный аналитик

ДАЛЕЕ • Москва

от 200 000 ₽

React Developer

ITK academy • Воронеж

от 50 000 до 90 000 ₽

Не очень понятно, что значит «не являются текстом и отчасти близки к бинарным», но при этом нужно организовать «полнотекстовый поиск»? Текстовый поиск по не-тексту? Боюсь, без примера данных разговор малопредметен.
Это произвольные последовательности символов, назовём их строки. Под поиском подразумевается — нахождение всех строк в которых содержится запрос, или подстрока.

Как утверждает википедия — «Полнотекстовый поиск — поиск документа в базе данных текстов на основании содержимого этих документов», собственно именно это и необходимо.

Answer 1 · 2011-03-24 03:11:26

Примените идею фильтра Блума:
выберите 10-30 признаков, легко вычисляемых как для запроса, так и для содержимого, которые дают примерно одинаковое распределение true/false на вашем множестве данных. Поиск отфильтруйте по тем записям, где встречаются признаки, обнаруженные в запросе.

Например, можно выбрать признаки вида «существует подстрока из N символов, сумма которых равна K». Очевидно, если такая подстрока присутствует в запросе, то она обязана присутствовать и в искомых записях. Ради интереса я провел эксперимент на jpg-аватарках размером в среднем 4К и подобрал такие пары N и К: (3, 97), (3 98), (3, 99), (3, 102), (3, 104), (3, 105), (4, 161), (4, 173), (4, 178), (5, 247), (5, 251), (5, 255)…

Answer 2 · 2011-03-24 00:16:07

wanmen @wanmen

Вот тут не плохо написано про полнотекстовый поиск www.mysql.ru/docs/man/Fulltext_Search.html

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2011-03-24 01:40:26

Тут только «сверху-вниз» возможно. Если данные совершенно случайны и сортировать их не имеет смысла, то другого выхода, наверное, нету. Если все же они поддаются сортировке, то можно попробовать ставить «метки» и искать в промежутке между ними.

Answer 4 · 2011-03-24 02:16:41

10 000 000 записей по 5 000 байт каждая?
Т.е. примерно 50 гигабайт текстовой информации?

Я бы попробовал shpinx, он неплохо переваривает большие объемы текстовых данных
sphinxsearch.com/about/sphinx/

Answer 5 · 2011-03-24 02:20:42

Если Ваши последовательности совершенно случайно имеют отношение к биологии (и даже если нет) — у биоинформатики есть специализированные алгоритмы, типа BLAST.

Answer 6 · 2011-03-24 14:16:59

Если данных много — найти возможность работать с индексом. Нет других эффективных решений.

Answer 7 · 2011-03-24 02:13:44

50Gb относительно случайных последовательностей байтов? Без разделителей? А длинна искомого фрагмента в среднем какая? И насколько часто будут производиться выборки?

Быстрый поиск по большому массиву неоднородных данных, что выбрать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт