Умный поиск по большой базе. Что выбрать?

Question

Василий Г. @hebrian_vasyl

Веб-разработчик

Умный поиск по большой базе. Что выбрать?

Здравствуйте!

Ищу готовое сервис для работы с постоянно пополняющейся базой данных.

Необходимо создать базу данных, куда ежедневно будет добавлятся ~15k (дальше еще больше)

Планируется два сценария работы с базой:
1. Добавление новых записей: если строка в базе не существует, то добавить её в базу.

2. Поиск по базе данных:
- поиск по текстовым полям по заданым ключевым словам/фразам на разных языках (с учетом морфологии)
- поиск по числовым полям
- сортировка по дате добавления

Вот примерная структура сущности:
- заголовок (текстовое поле)
- описание (текстовое поле)
- кол-во на складе (число)
- кол-во в магазине (число)
- категории (масив числовых значний, id категорий)

Если описать запрос словами, получится примерно так:
Получить все записи, для которых выполняется условия:
1. В заголовке или описании содержатся слова apple, orange
2. В заголовке или описании НЕ содерится banana
3. Если есть на складе и кол-во > 10 или кол-во в магазине > 1
5. В категориях ID:10, ID: 20, ID:30

Что бы ускорить поиск, записи можно фильтров по дате добавление, и не учитывать те, которые были добавлены больше 72 часов назад.

Думал разрабатывать, например на MySQL + Sphinx, или Elasticsearch, но это долго и дорого, к тому же нужно постоянно поддерживать.

Смотрел в сторону готовых решений и SaaS сервисов. Пробовал Elastic App Search, все было хорошо, но столкнулся с ограниченим 2 проблемами:
1. если ключевые фразы на разных языках, морфология не работает.
2. есть ограничение в 128 символов в поисковом запросе. На форуме подсказали, что таких долгих поисковых запросов впринцыпе не должно быть, и я не для того использую сервис.

Неужели нет готовых решений, что бы создать сущность, задать поля и по API добавлять записи и делать по ним поиск?

Вопрос задан более трёх лет назад
438 просмотров

5 комментариев

Подписаться 2 Средний 5 комментариев

Valentyn @rotarepmipoleved

Позвольте узнать, насколько большие запросы Вы собираетесь делать, что 128 символов мало?
Насколько большая база изначально?

Если вам нужен поиск по БД для собственных нужд, был подобный опыт - дешево и сердито:
БД на 1.7 миллиона записей со средней длинной Заголовка ~300 символов и Списка ~20000 символов, дополнительно поля - Статус, Номер, Дата создания
MySQL на хостинге отрабатывал LIKE запросы достаточно быстро. И мог бы еще быстрее при добавлении FULLTEXT индекса.
Про морфологию можно позаботиться делая запросы не по целым словам - appl, orang, banan. Так же на других языках.
Логику умного поиска можно бесконечно развивать под свои нужды, сам по себе он умным не будет.

Написано более трёх лет назад
Antonio Solo @solotony

я за сфинкс

Написано более трёх лет назад
Василий Г. @hebrian_vasyl Автор вопроса

Valentyn,
Спасибо за ответ!

Символов так много, потому что поиск может быть по 10 ключевым фразам, если еще добавить операторы AND, OR, NOT и 128 символов становится мало.

Уже есть тестовая база, на 10 млн. записей, настроены индексы, подключен sphinx, но изначально все было настроено криво, ищет не всегда корректно, и нагружает сервер.

Написано более трёх лет назад
Valentyn @rotarepmipoleved

Василий Г., база действительно большая. Согласен с Antonio Solo - Сфинкс в Вашем случае правильное направление.

Жесткого ограничения в Сфинксе на 128 символов нету, это скорее рекомендация.

Используем на production Sphinx 3.1.1 для одной из БД на 3.5 млн записей с полными текстами документов.
Рекомендую шаманить с опциями morphology, blend_chars, blend_mode, charset_table - они оказывают существенное влияние на качество поиска.

Написано более трёх лет назад
Евгений К @Evg

Manticore Search, ИМХО, и нет проблем. Посмотрите. Форк Sphinx, код открыт и не думаю, что могут быть трудности с ним. Сами, вроде довольны.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Мидл Python-разработчик

6 месяцев

Далее
Merion Academy

Курс по NoSQL. Нереляционные базы данных

1 месяц

Далее
Яндекс Практикум

Аналитик SOC

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Laravel

+1 ещё

Средний
Production.ERROR: No alive nodes. All the 1 nodes seem to be down -- laravel?
- 1 подписчик
- 14 окт.
- 110 просмотров
0

ответов
Sphinx

Простой
Возможно ли настроить wordforms в Manticore с добавлением нескольких синонимов к указанному слову, а не только один?
- 1 подписчик
- 06 окт.
- 65 просмотров
1

ответ
Sphinx

+1 ещё

Простой
Не ставится Sphinx в виртуальной машине Bitrix 7.5.5?
- 1 подписчик
- 14 авг.
- 51 просмотр
0

ответов
Elasticsearch

Простой
Почему opensearch создает кучу процессов?
- 2 подписчика
- 04 авг.
- 284 просмотра
1

ответ
Elasticsearch

Простой
Как побороть несовместимость версий elasticsearch и его fluent плагина?
- 2 подписчика
- 11 июн.
- 311 просмотров
0

ответов
Elasticsearch

Простой
К какому методу API ElasticSearch необходимо делать запрос для получения количества документов?
- 1 подписчик
- 27 мая
- 40 просмотров
1

ответ
Sphinx

Средний
Как указать --skip-ssl в конфиге manticore?
- 3 подписчика
- 26 февр.
- 362 просмотра
1

ответ
1С-Битрикс

+1 ещё

Простой
Как сделать простой фильтр с фасетом?
- 1 подписчик
- 16 февр.
- 133 просмотра
1

ответ
MySQL

+1 ещё

Простой
Как построить индекс в ElasticSearch с фильтрами по полям содержащим тысячи значений?
- 4 подписчика
- 23 янв.
- 460 просмотров
1

ответ
PHP

+1 ещё

Средний
Как сортировать новости в результатах поиска по дате публикации?
- 5 подписчиков
- 19 дек. 2024
- 1246 просмотров
1

ответ
Показать ещё Загружается…

DevOps-инженер

DevTeam.Space

от 1 000 до 2 500 $

Ведущий Backend-разработчик на Python TechLead / Senior Python Backend Developer

Employ City • Москва

До 500 000 ₽

Ведущий системный администратор

АВ Софт • Москва

от 300 000 ₽

Позвольте узнать, насколько большие запросы Вы собираетесь делать, что 128 символов мало?
Насколько большая база изначально?

Если вам нужен поиск по БД для собственных нужд, был подобный опыт - дешево и сердито:
БД на 1.7 миллиона записей со средней длинной Заголовка ~300 символов и Списка ~20000 символов, дополнительно поля - Статус, Номер, Дата создания
MySQL на хостинге отрабатывал LIKE запросы достаточно быстро. И мог бы еще быстрее при добавлении FULLTEXT индекса.
Про морфологию можно позаботиться делая запросы не по целым словам - appl, orang, banan. Так же на других языках.
Логику умного поиска можно бесконечно развивать под свои нужды, сам по себе он умным не будет.
Valentyn,
Спасибо за ответ!

Символов так много, потому что поиск может быть по 10 ключевым фразам, если еще добавить операторы AND, OR, NOT и 128 символов становится мало.

Уже есть тестовая база, на 10 млн. записей, настроены индексы, подключен sphinx, но изначально все было настроено криво, ищет не всегда корректно, и нагружает сервер.
Василий Г., база действительно большая. Согласен с Antonio Solo - Сфинкс в Вашем случае правильное направление.

Жесткого ограничения в Сфинксе на 128 символов нету, это скорее рекомендация.

Используем на production Sphinx 3.1.1 для одной из БД на 3.5 млн записей с полными текстами документов.
Рекомендую шаманить с опциями morphology, blend_chars, blend_mode, charset_table - они оказывают существенное влияние на качество поиска.
Manticore Search, ИМХО, и нет проблем. Посмотрите. Форк Sphinx, код открыт и не думаю, что могут быть трудности с ним. Сами, вроде довольны.

Answer 1 · 2020-02-17 03:52:04

Указатель (подобный книжному) диапазонов id/строк записей по каждому из языков и по каждому уникальному термину из всех строк для каждого из языков.
При изменении базы - всегда обновляете указатель.

Порядок условий при поиске из вашего примера (из 5 пунктов) - правильный. Это корректный "водопадный" фильтр выборки.

Неужели нет готовых решений, что бы создать сущность, задать поля и по API добавлять записи и делать по ним поиск?

конечно же есть, но не в открытом доступе и не бесплатно.

Умный поиск по большой базе. Что выбрать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт