Как организовать быстрый поиск по 3 млрд документов?

Question

Артем @devspec

Помогло? Отметь решением

Как организовать быстрый поиск по 3 млрд документов?

Здравствуйте

Столкнула меня жизнь с необходимостью в быстром поиске среди 3 млрд документов. Грубо говоря, это список ключевых запросов пользователей ПС, из которых нужно выбрать те, в которые входит, например, слово "скачать".
Залил я демонстрационный миллиард в MongoDb (получив, к слову, 239 гб данных в 139 файлах) и попробовал сделать выборку через Matches (я работаю с монго через драйвер c#).
Даже простой Count этого запроса выполнялся так долго, что у меня не хватило терпения. При этом монгой было занято 10% процессора и чуток памяти.
А хотелось бы, чтобы всё это делалось секунды, а не минуты или часы.
Подскажите, в какую сторону копать?

Спасибо.

Вопрос задан более трёх лет назад
2643 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Учебный центр IBS

SDP-030_PRG Продвинутая разработка в Microsoft .NET

1 неделя

Далее
Ulearn.me

Проектирование на языке C#

1 неделя

Далее
Ulearn.me

Основы программирования на примере C#. Часть 2

1 неделя

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

Простой
Почему одинаковые делегаты работают по разному, В 10 Раз разница в скорости?
- 1 подписчик
- 27 окт.
- 216 просмотров
0

ответов
C#

+1 ещё

Простой
Почему не работает обратная привязка в Avalonia UI?
- 1 подписчик
- 22 окт.
- 113 просмотров
1

ответ
C#

+1 ещё

Средний
При каких входных данных моя программа работает неверно и как мне научиться самому это понимать? Как научиться искать ошибки?
- 2 подписчика
- 20 окт.
- 324 просмотра
3

ответа
C#

+2 ещё

Простой
Как универсализировать обычный ViewList в WPF C# XAML?
- 1 подписчик
- 20 окт.
- 74 просмотра
2

ответа
C#

+1 ещё

Простой
Как проверить, наследует ли объект в обобщённом методе?
- 1 подписчик
- 16 окт.
- 102 просмотра
1

ответ
C#

+1 ещё

Средний
Пермач после авторизации [WTelegram,TDLib] как исправить?
- 1 подписчик
- 10 окт.
- 297 просмотров
0

ответов
C#

+1 ещё

Простой
Как в VSCode для C#-кода сгенерировать или посмотреть только структуру?
- 1 подписчик
- 01 окт.
- 134 просмотра
1

ответ
C#

+1 ещё

Простой
Почему VSCode панель Outline view не показывает классы и функции из C# кода?
- 1 подписчик
- 01 окт.
- 132 просмотра
1

ответ
C#

+1 ещё

Простой
Как в EF Core 9 произвести поиск совпадений на русском и без учета регистра?
- 1 подписчик
- 01 окт.
- 129 просмотров
0

ответов
C#

+2 ещё

Средний
Как включить множество опций публикации в Visual Studio 2022?
- 1 подписчик
- 30 сент.
- 78 просмотров
1

ответ
Показать ещё Загружается…

Разработчик C#

Abc staff • Москва

До 220 000 ₽

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

QA Automation Engineer (C#)

Centicore Group • Москва

До 300 000 ₽

Answer 1 · 2014-11-21 12:13:47

Евгений @Nc_Soft

elasticsearch

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2014-11-21 12:18:06

brutal_lobster @brutal_lobster

В сторону mongo index или text search engines - lucene, sphinx..

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2014-11-21 19:43:36

Грубо говоря, это список ключевых запросов пользователей ПС, из которых нужно выбрать те, в которые входит, например, слово "скачать".

Если список ключевых слов не большой то можно сделать индексированный массив в документах и туда помещать эти ключевые слова (или их идентификаторы).
В противном случае использовать sphinx/elasticsearch. Можно так же использовать text index из mongoDB, но он мне показался через чур прожорливым.

попробовал сделать выборку через Matches

При этом происходит перебор и проверка всех документов, поэтому это так долго.

Как организовать быстрый поиск по 3 млрд документов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт