Как организовать быстрый поиск по 78 млн строк?

Question

Александр Иванов @alexivanov77

It

Поисковые системы

Как организовать быстрый поиск по 78 млн строк?

Имеется csv файл в котором около 78 млн строк. Как максимально быстро организовать поиск по этим строкам?
На практике меня интересует всего один столбец, из шести имеющихся в нем. Я могу перенести этот столбец в текстовый документ, если это ускорит поиск.

Я так понимаю, что по идее нужно загрузить этот файл в оперативную память, что бы он постоянно был открытый в ней для наиболее быстрого поиска строк.
Необходимо добиться хотя бы несколько 10-20 миллионов поисков в секунду. Что можете посоветовать для решения этой задачи? В чем хранить, как искать, какое лучше для этого использовать железо?
Предпочитаемые языки python или C#.

Вопрос задан более двух лет назад
1318 просмотров

2 комментария

Подписаться 9 Средний 2 комментария

Решения вопроса 2

7 комментариев

User700 @User700

Или выстраивание дерева по этому полю

Написано более двух лет назад
Александр Иванов @alexivanov77 Автор вопроса

сейчас csv файл весит около 9 гб, если памяти нужно больше - это не проблема. Можно докупить любое железо для решения этой задачи. Данные как раз таки уникальные и нужно точное соответствию. Пойду изучать хэш таблицы)

Написано более двух лет назад
Василий Банников @vabka

Александр Иванов, Ну вот в шарпе Dictionary или ConcurrentDictionary :)
Но 9гб может стать проблемой для GC, так что будь внимателен.
Возможно придётся всё равно данные хранить на диске, а в словаре держать сдвиг.

Написано более двух лет назад
pfg21 @pfg21

Александр Иванов, зачем хеш ??, если хватит индекса.
имхо вместо ковыряния своих велосипедов, скинуть csv в бд и использовать отработанные на множестве применений средства.

Написано более двух лет назад
Василий Банников @vabka

pfg21, ну как минимум хеш вроде как отлично подходит - значения уникальные, нужно находить быстро, поиск будет происходить по точному совпадению

Написано более двух лет назад
raiboon @raiboon

нужно аккуратно тестировать, что будет с хэштаблицей на 7 миллионах записей на нужных языках на предполагаемой машинке

они не настолько уж и быстрые и могут деградировать из-за большого числа записей - https://tessil.github.io/2016/08/29/benchmark-hops...

автор писал про питон, в принципе, на моей компе чтение по ключу из словаря на 7кк записей занимает 37.7 ns ± 1.3 ns, что дает примерно 24kk чтений в секунду, сколько будет на сервере - вопрос

как вариант, на плюсах есть compile-time хэшмэпы, которые позволяют значительно быстрее получать значение по ключу, чем обычные

Написано более двух лет назад
Александр Иванов @alexivanov77 Автор вопроса

благодаря вам впервые узнал про такой крутой инструмент как хэш таблицы - спасибо

Написано более двух лет назад

Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

5 комментариев

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

JavaScript

+2 ещё

Средний
Как я могу сделать поиск по нескольким значениям в js используя elasticsearch?
- 1 подписчик
- 20 апр.
- 51 просмотр
1

ответ
Поисковые системы

Простой
Как искать за переделённый период?
- 1 подписчик
- 11 апр.
- 47 просмотров
1

ответ
Поисковые системы

+1 ещё

Простой
Какие есть годные сайты/программы для процедур OSINT?
- 1 подписчик
- 31 мар.
- 72 просмотра
2

ответа
Браузеры

+1 ещё

Средний
Как составить букмарклет для поиска в Yandex из Google?
- 1 подписчик
- 14 мар.
- 63 просмотра
1

ответ
Open Source

+1 ещё

Простой
Персональный гугл, если ли?
- 2 подписчика
- 09 февр.
- 398 просмотров
8

ответов
Поисковая оптимизация

+1 ещё

Простой
Работает ли сейчас meta keywords?
- 1 подписчик
- 04 февр.
- 224 просмотра
6

ответов
Поисковая оптимизация

+2 ещё

Средний
Страницы сайта не попадают в индекс Google несколько месяцев. В чём причина?
- 7 подписчиков
- 28 нояб. 2023
- 1438 просмотров
6

ответов
Поисковая оптимизация

+1 ещё

Простой
Есть ли разница для поисковой системы как написан номер запчасти?
- 1 подписчик
- 21 нояб. 2023
- 35 просмотров
2

ответа
Веб-разработка

+2 ещё

Средний
Будет ли аналитика сайта учитывать источник трафика, если в поле referer — strict-origin-when-cross-origin?
- 1 подписчик
- 18 нояб. 2023
- 54 просмотра
1

ответ
Поисковая оптимизация

+1 ещё

Средний
Видят ли ресурсы поисковый запрос от гугл, приведший на этот ресурс?
- 1 подписчик
- 15 нояб. 2023
- 68 просмотров
4

ответа
Показать ещё Загружается…

Продуктовый дизайнер в команду дизайн-системы

Точка

До 240 000 ₽

Senior Java Developer, Database Engine

CedrusData

от 350 000 ₽

Senior Backend Engineer в агрегатор нейросетей (150к DAU)

NN Media

от 300 000 до 500 000 ₽

Поправить PHP код на отправку данных Google Sheets

26 апр. 2024, в 13:47

1000 руб./за проект

Парсер для репостинга из ТГ канала

26 апр. 2024, в 13:40

4000 руб./за проект

Схема и gerber

26 апр. 2024, в 13:39

500 руб./за проект

самый главный вопрос, что за поиск производится? [сравнение по расстоянию левентштейна? строгое равенство? строгий поиск по словам? лексикографический нестрогий с фонетическими ошибками или учетом эргономики десктопных и мобильных клавиатур (последнее было бы интересно послушать)

от ответа на этот вопрос зависит решение, и они сильно разные
Xapian - полнотекстовый поиск
https://xapian.org/
https://habr.com/ru/post/113381/
https://habr.com/ru/post/113657/

key-value базы данных
их много разных
Redis какойнибудь
или libmdbx https://github.com/erthink/libmdbx
https://habr.com/ru/company/raidix/blog/345076/

Answer 1 · 2021-12-25 15:39:11

Зависит от того какой поиск и какие данные.
Опять же - если данных уж очень много, то вряд ли получится всё в ОЗУ загрузить
Если по точному соответствию, и все они уникальные - используй хэш таблицы.
Если они сортируемые - отсортируй и используй бинарный поиск.
Если нужен полнотекстовый/нечёткий поиск - проще взять стороннюю СУБД.

Answer 2 · 2021-12-25 16:39:05

На любом языке программирования, желательно c++, реализуешь следующее приложение, использующее map или аналогичную структуру следующим образом.

В качестве ключа - хеш от искомого значения
В качестве значения - список структур, в котоых пара искомое значение (с возможностью выставить null) + возвращаемое значение (идеально может быть смещение в файле csv где начинается нужная строка). Возможно вместо списка использовать еще один map (значение => смещение или даже значение => список смещений, если искомое поле не уникально)

Map<hash,List<{value,offset}>> или Map<hash,Map<value,List<offset>>>

Тогда первоначальное наполнение просто считает хеши ключа и заполняет в возвращаемые значение смещение соответствующих строк в csv файле
Затем вторым проходом, для тех записей где случились коллизии хеша и список возвращаемых значений больше 1, прописать искомое значение либо его хеш (с другим алгоритмом, если не боишься двойных коллизий)

Затем организуешь поисковый метод который будет принимать поисковые запросы и складывать в очередь (thread safe) ответы (id запроса + смещение строки в csv либо null если не найдено). Метод просто считает хеш искомой строки и берет в map нужный список ответов, если их больше 1 то последовательно сравнивае

Параллельным потоком либо с асинхронно считываешь csv строки, на основе этой очереди (если диск hdd то лучше сортировать порядок чтения записей из файла по смещению, если записи в csv очень короткие, сотня другая байт, то сортировать имеет смысл и для ssd)

Если правильно подобрать хеш для искомого значения, то скорость поиска даже на слабых машинах будет сотни миллионов в секунду и будет фактически упираться в скорость чтения csv с диска.
-------------
Готовые базы данных будут хранить в памяти значения искомого поля, что может оказаться накладно, когда как указанный алгоритм позволит подобрать такой хеш, чтобы коллизий его было сильно мало и не требовалось бы хранить значение в принципе.

само собой можно считать хеш самому и использовать готовую базу данных но тогда какой смысл в ней если все делать самому.

Answer 3 · 2021-12-25 15:59:58

Dimonchik @dimonchik2013

non progredi est regredi

Clickhouse,
Sphinx/Manticore search
Reindexer
грамотный Сишник/Растщик/Гофер

Ответ написан более двух лет назад

Комментировать

Answer 4 · 2021-12-25 23:43:41

Чтобы не городить огород, достаточно импортировать в SQLite. Ну и, добавить индекс на нужную колонку. Если нужно, там есть и полно-текстовый поиск.

Answer 5 · 2021-12-26 00:09:13

Отразить файл в память memory-mapped-file System.IO.MemoryMappedFiles, это примерно 30x быстрее чем просто читать с диска
Сделать и постоянно обновлять поисковый индекс ключ_поиска->file_offset, прямое решение - ассоциативный массив System.Collection.Generics Dictionary

Как организовать быстрый поиск по 78 млн строк?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт