Как организовать быстрый поиск по 78 млн строк?

Question

Александр Иванов @alexivanov77

It

Поисковые системы

Как организовать быстрый поиск по 78 млн строк?

Имеется csv файл в котором около 78 млн строк. Как максимально быстро организовать поиск по этим строкам?
На практике меня интересует всего один столбец, из шести имеющихся в нем. Я могу перенести этот столбец в текстовый документ, если это ускорит поиск.

Я так понимаю, что по идее нужно загрузить этот файл в оперативную память, что бы он постоянно был открытый в ней для наиболее быстрого поиска строк.
Необходимо добиться хотя бы несколько 10-20 миллионов поисков в секунду. Что можете посоветовать для решения этой задачи? В чем хранить, как искать, какое лучше для этого использовать железо?
Предпочитаемые языки python или C#.

Вопрос задан более трёх лет назад
1670 просмотров

2 комментария

Подписаться 9 Средний 2 комментария

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
Нетология

Инженер по тестированию

8 месяцев

Далее

Решения вопроса 2

7 комментариев

User700 @User700

Или выстраивание дерева по этому полю

Написано более трёх лет назад
Александр Иванов @alexivanov77 Автор вопроса

сейчас csv файл весит около 9 гб, если памяти нужно больше - это не проблема. Можно докупить любое железо для решения этой задачи. Данные как раз таки уникальные и нужно точное соответствию. Пойду изучать хэш таблицы)

Написано более трёх лет назад
Василий Банников @vabka

Александр Иванов, Ну вот в шарпе Dictionary или ConcurrentDictionary :)
Но 9гб может стать проблемой для GC, так что будь внимателен.
Возможно придётся всё равно данные хранить на диске, а в словаре держать сдвиг.

Написано более трёх лет назад
pfg21 @pfg21

Александр Иванов, зачем хеш ??, если хватит индекса.
имхо вместо ковыряния своих велосипедов, скинуть csv в бд и использовать отработанные на множестве применений средства.

Написано более трёх лет назад
Василий Банников @vabka

pfg21, ну как минимум хеш вроде как отлично подходит - значения уникальные, нужно находить быстро, поиск будет происходить по точному совпадению

Написано более трёх лет назад
raiboon @raiboon

нужно аккуратно тестировать, что будет с хэштаблицей на 7 миллионах записей на нужных языках на предполагаемой машинке

они не настолько уж и быстрые и могут деградировать из-за большого числа записей - https://tessil.github.io/2016/08/29/benchmark-hops...

автор писал про питон, в принципе, на моей компе чтение по ключу из словаря на 7кк записей занимает 37.7 ns ± 1.3 ns, что дает примерно 24kk чтений в секунду, сколько будет на сервере - вопрос

как вариант, на плюсах есть compile-time хэшмэпы, которые позволяют значительно быстрее получать значение по ключу, чем обычные

Написано более трёх лет назад
Александр Иванов @alexivanov77 Автор вопроса

благодаря вам впервые узнал про такой крутой инструмент как хэш таблицы - спасибо

Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

5 комментариев

rPman @rPman

sqlite не умеет 10кк запросов в секунду

Написано более трёх лет назад
d'Ivan @2ord

rPman, а в памяти?

Написано более трёх лет назад
rPman @rPman

sqlite memory говорят очень медленная

Написано более трёх лет назад
d'Ivan @2ord

rPman, хорошо бы посмотреть на результаты замеров. Может, того вполне достаточно. Особенно если цифры о 20 М запросов/с взяты с потолка.

Написано более трёх лет назад
rPman @rPman

проверь, sqlite из коробки умеет работать с csv, импортируешь, делаешь 100 запросов выборки записи по искомому полю, замеряешь время

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 206 просмотров
0

ответов
Поисковая оптимизация

+3 ещё

Средний
Yandex не индексирует изображения на сайте, почему?
- 2 подписчика
- 01 июл.
- 861 просмотр
2

ответа
Поисковая оптимизация

+2 ещё

Средний
Нужно ли как-то решать проблему в файле robots (Правило, которое не учитывается Googlebot: host)?
- 1 подписчик
- 25 июн.
- 251 просмотр
2

ответа
Поисковая оптимизация

+1 ещё

Простой
Улучшают ли позиции в ПС разные «оптимизаторы» текстов?
- 1 подписчик
- 19 июн.
- 139 просмотров
3

ответа
Поисковые системы

Простой
Как подменить домен в поисковике?
- 2 подписчика
- 27 мая
- 156 просмотров
2

ответа
Поисковые системы

Простой
Какие книги посоветуете для изучение того как работает поисковая система?
- 1 подписчик
- 02 апр.
- 153 просмотра
1

ответ
Поисковые системы

Средний
Как найти информацию о файле?
- 1 подписчик
- 25 мар.
- 89 просмотров
0

ответов
Поисковые системы

Простой
Полезные инструменты для проверки мошенников?
- 2 подписчика
- 15 февр.
- 676 просмотров
3

ответа
Поисковая оптимизация

+1 ещё

Простой
Хочу создать копию своего сайт,будет ли индексироватся?
- 1 подписчик
- 25 дек. 2024
- 158 просмотров
3

ответа
Изображения

+1 ещё

Простой
Возможно ли в 2024-м найти картинку обратным поиском?
- 1 подписчик
- более года назад
- 293 просмотра
1

ответ
Показать ещё Загружается…

Node.js backend разработчик (Middle+/Senior)

DataLouna

от 250 000 до 350 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Backend developer

Creative Code

До 190 000 ₽

самый главный вопрос, что за поиск производится? [сравнение по расстоянию левентштейна? строгое равенство? строгий поиск по словам? лексикографический нестрогий с фонетическими ошибками или учетом эргономики десктопных и мобильных клавиатур (последнее было бы интересно послушать)

от ответа на этот вопрос зависит решение, и они сильно разные
Xapian - полнотекстовый поиск
https://xapian.org/
https://habr.com/ru/post/113381/
https://habr.com/ru/post/113657/

key-value базы данных
их много разных
Redis какойнибудь
или libmdbx https://github.com/erthink/libmdbx
https://habr.com/ru/company/raidix/blog/345076/

Answer 1 · 2021-12-25 15:39:11

Зависит от того какой поиск и какие данные.
Опять же - если данных уж очень много, то вряд ли получится всё в ОЗУ загрузить
Если по точному соответствию, и все они уникальные - используй хэш таблицы.
Если они сортируемые - отсортируй и используй бинарный поиск.
Если нужен полнотекстовый/нечёткий поиск - проще взять стороннюю СУБД.

Answer 2 · 2021-12-25 16:39:05

На любом языке программирования, желательно c++, реализуешь следующее приложение, использующее map или аналогичную структуру следующим образом.

В качестве ключа - хеш от искомого значения
В качестве значения - список структур, в котоых пара искомое значение (с возможностью выставить null) + возвращаемое значение (идеально может быть смещение в файле csv где начинается нужная строка). Возможно вместо списка использовать еще один map (значение => смещение или даже значение => список смещений, если искомое поле не уникально)

Map<hash,List<{value,offset}>> или Map<hash,Map<value,List<offset>>>

Тогда первоначальное наполнение просто считает хеши ключа и заполняет в возвращаемые значение смещение соответствующих строк в csv файле
Затем вторым проходом, для тех записей где случились коллизии хеша и список возвращаемых значений больше 1, прописать искомое значение либо его хеш (с другим алгоритмом, если не боишься двойных коллизий)

Затем организуешь поисковый метод который будет принимать поисковые запросы и складывать в очередь (thread safe) ответы (id запроса + смещение строки в csv либо null если не найдено). Метод просто считает хеш искомой строки и берет в map нужный список ответов, если их больше 1 то последовательно сравнивае

Параллельным потоком либо с асинхронно считываешь csv строки, на основе этой очереди (если диск hdd то лучше сортировать порядок чтения записей из файла по смещению, если записи в csv очень короткие, сотня другая байт, то сортировать имеет смысл и для ssd)

Если правильно подобрать хеш для искомого значения, то скорость поиска даже на слабых машинах будет сотни миллионов в секунду и будет фактически упираться в скорость чтения csv с диска.
-------------
Готовые базы данных будут хранить в памяти значения искомого поля, что может оказаться накладно, когда как указанный алгоритм позволит подобрать такой хеш, чтобы коллизий его было сильно мало и не требовалось бы хранить значение в принципе.

само собой можно считать хеш самому и использовать готовую базу данных но тогда какой смысл в ней если все делать самому.

Answer 3 · 2021-12-25 15:59:58

Dimonchik @dimonchik2013

non progredi est regredi

Clickhouse,
Sphinx/Manticore search
Reindexer
грамотный Сишник/Растщик/Гофер

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2021-12-25 23:43:41

Чтобы не городить огород, достаточно импортировать в SQLite. Ну и, добавить индекс на нужную колонку. Если нужно, там есть и полно-текстовый поиск.

Answer 5 · 2021-12-26 00:09:13

Отразить файл в память memory-mapped-file System.IO.MemoryMappedFiles, это примерно 30x быстрее чем просто читать с диска
Сделать и постоянно обновлять поисковый индекс ключ_поиска->file_offset, прямое решение - ассоциативный массив System.Collection.Generics Dictionary

Как организовать быстрый поиск по 78 млн строк?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт