Какую систему можно использовать для поиска запроса среди текста?

Question

f6095a351084 @f6095a351084

Поисковые системы

Какую систему можно использовать для поиска запроса среди текста?

У меня есть много файлов txt и csv, содержащие записи в формате: имя, телефон, контактные данные и т.д.
Количество строк может быть от 100 000 до 120млн, а размер файла до 90 гб

Какую систему можно использовать для поиска и куда лучше всего будет перенести все данные?
Важным критерием должно быть получение результатов не дольше 1 секунды.

Так же, в случае если есть система которая принимает ограниченное количество строк или размер, то я могу разбить файлы на несколько частей и соединять результаты после поиска.

Вопрос задан более двух лет назад
64 просмотра

Подписаться 2 Простой

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Ответы на вопрос 2

2 комментария

Ваш ответ на вопрос

Вопрос закрыт для ответов и комментариев

Потому что уже есть похожий вопрос.

Похожие вопросы

Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 206 просмотров
0

ответов
Поисковая оптимизация

+3 ещё

Средний
Yandex не индексирует изображения на сайте, почему?
- 2 подписчика
- 01 июл.
- 858 просмотров
2

ответа
Поисковая оптимизация

+2 ещё

Средний
Нужно ли как-то решать проблему в файле robots (Правило, которое не учитывается Googlebot: host)?
- 1 подписчик
- 25 июн.
- 245 просмотров
2

ответа
Поисковая оптимизация

+1 ещё

Простой
Улучшают ли позиции в ПС разные «оптимизаторы» текстов?
- 1 подписчик
- 19 июн.
- 139 просмотров
3

ответа
Поисковые системы

Простой
Как подменить домен в поисковике?
- 2 подписчика
- 27 мая
- 156 просмотров
2

ответа
Поисковые системы

Простой
Какие книги посоветуете для изучение того как работает поисковая система?
- 1 подписчик
- 02 апр.
- 153 просмотра
1

ответ
Поисковые системы

Средний
Как найти информацию о файле?
- 1 подписчик
- 25 мар.
- 89 просмотров
0

ответов
Поисковые системы

Простой
Полезные инструменты для проверки мошенников?
- 2 подписчика
- 15 февр.
- 676 просмотров
3

ответа
Поисковая оптимизация

+1 ещё

Простой
Хочу создать копию своего сайт,будет ли индексироватся?
- 1 подписчик
- 25 дек. 2024
- 158 просмотров
3

ответа
Изображения

+1 ещё

Простой
Возможно ли в 2024-м найти картинку обратным поиском?
- 1 подписчик
- 04 дек. 2024
- 293 просмотра
1

ответ
Показать ещё Загружается…

Deep Learning Engineer (GigaChat Prod)

Сбер • Москва

от 350 000 ₽

Веб дизайнер (удаленный формат)

MYFORCE

от 100 000 до 250 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Answer 1 · 2022-12-30 20:47:11

Для ответа на твой вопрос нужно знать, какие именно запросы ты собираешься делать.

На каждый запрос необходимо создать индекс, некий массив данных, который позволит очень быстро (обычно с трудоемкостью log от количества данных) найти записи, соответствующие связанному с ним запросу (обычно это буквально значение -> список ссылок на записи, часто в виде сложной структуры, например древовидной). Запросы ведь бывают разные, есть простые - просто поиск по значению, математические (суммы, поиск min/max, и т.п.) и текстовые (например наличие слова в подстроке), и на каждый тип может понадобиться свой индекс.

Индексы можно создавать самостоятельно в оперативной памяти средствами языка (например c++, java,.. имеют готовые классы для индексации типа has table или has tree или еще как). Настоятельно рекомендую взять готовый софт - реляционные базы данных, позволяющих очень красиво описать свои данные в виде реляционной структуры, настроить индексы и, пользуясь sql запросами, делать эффективные поисковые запросы.

Открытые и бесплатные mysql, postgres, sqlite (последний очень простой, в виде библиотеки а не сервера а база в виде файла). В подавляющем большинстве случаев открытые и бесплатные инструменты будут более чем достаточны и не будут отличаться по скорости с дорогими платными инструментами, чаще всего они дают прирост в сложных ситуациях, когда есть многопользовательский доступ с одновременной записью, инструменты отказоустойчивости и т.п. в общем все то что в данной задаче скорее всего не нужно.

Недостаток - sql базы данных добавляют накладные расходы на запись данных, чтобы обеспечить надежную запись данных и исключить потерю данных, к примеру после сбоя, и делает они это с помощью транзакций. Можно (нужно) конечно заворачивать записи в базу в пакеты (по несколько тысяч записей на транзакцию, так как базы данных не любят незавершенные транзакции размером на все 90гб), в любом случае первоначальное наполнение может затянуться. Так же настоятельно рекомендуется добавлять индексы после того как данные добавлены в базу, а не до этого, так как на каждую запись будет пересчитываться индекс а это очень медленно.

Есть лайфхак, средствами файловой системы включаешь принудительное кеширование записи, т.е. игнорирование команды flush от сервера базы данных.. делать это можно разными способами, тюнинг файловой системы (ext4 journal date write back), виртуальные машины с принудительным кешированием, инструменты самой базы данных (например разместить файл лога т файлы хранения индексов в оперативной памяти) и т.п.

Answer 2 · 2022-12-30 20:07:32

Какие изыскания вами уже были предприняты?
Начните с ElasticSearch, она отлично съест десятки гигабайт данных.

Важным критерием должно быть получение результатов не дольше 1 секунды.

Важным критерием станет сложность условий поиска и стоимость оборудования, арендованного для работы вашей системы.

Какую систему можно использовать для поиска запроса среди текста?

Вопрос закрыт для ответов и комментариев

Минуточку внимания

Войдите на сайт