Какую базу данных выбрать для поисковой системы?

Question

TZbooo @TZbooo

Какую базу данных выбрать для поисковой системы?

Захотел в качестве пет-проекта разработать собственную поисковую систему и столкнулся с проблемой выбора стека, а именно с выбором базы данных. Мне нужно где-то сохранять страницы, которые я спарсил. В какой базе данных лучше это делать? Может вообще есть какие-то готовые решения на этот счет? Так как одна из задач это формирование карты сайта, то может быть стоит рассмотреть графовую бд?

Вопрос задан более двух лет назад
773 просмотра

Комментировать

Подписаться 3 Простой Комментировать

Решения вопроса 2

1 комментарий

8 комментариев

rPman @rPman

Полнотекстовый поиск добавили и в рядовые sql базы данных, в том же postgres и mysql есть.

Написано более двух лет назад
mayton2019 @mayton2019

rPman, +100

Написано более двух лет назад
Ипатьев @ipatiev

это MATCH AGAINST-то "полнотекстовый поиск"? Ну флаг в руки

Написано более двух лет назад
mayton2019 @mayton2019

Может быть потомок старинного рода дело говорит. Хотелось бы глянуть что на самом деле автор хочет
на выходе. Граф линков?

Написано более двух лет назад
d'Ivan @2ord

Ипатьев, у любой технологии есть какие-то ограничения. Не всем ведь ElasticSearch же предлагать.
Что не так с MATCH AGAINST?

Написано более двух лет назад
Akina @Akina

Иерокопус Таманский,
Что не так с MATCH AGAINST?

Cкорость. Никакая по сравнению со Сфинксом.

Ну и неудобно то, что для каждого набора полей, в которых делается поиск, надо свой FTI.

Кроме того, FTS выдаёт результат на основе некоего "рейтинга соответствия". Да, он описан достаточно подробно - но то, что там описано, совпадает с желаемым далеко не всегда, а поправить поведение в нужную сторону нет никакой возможности.

Ну и проблемы с кодировками. И невозможность подключения семантического модуля. И куча прочего.. в общем, самый что ни на есть "начальный" вариант, чуть что сложнее - и не справится.

Написано более двух лет назад
al_gon @al_gon

Иерокопус Таманский, а в какой базе MATCH AGAINST умеет работать с естесвенным языком?
Не просто с текстом, а учитывает особенности языка, плюс синонимы, стоп слова и т.д.

Написано более двух лет назад
d'Ivan @2ord

Всё зависит от use case. Может, требования не так уж высоки. Тогда и Эластик не обязателен. И MATCH AGAINST есть своя ниша.

Написано более двух лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Поисковая оптимизация

+3 ещё

Средний
Yandex не индексирует изображения на сайте, почему?
- 2 подписчика
- 01 июл.
- 775 просмотров
2

ответа
Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 81 просмотр
1

ответ
Поисковая оптимизация

+2 ещё

Средний
Нужно ли как-то решать проблему в файле robots (Правило, которое не учитывается Googlebot: host)?
- 1 подписчик
- 25 июн.
- 165 просмотров
1

ответ
Поисковая оптимизация

+1 ещё

Простой
Улучшают ли позиции в ПС разные «оптимизаторы» текстов?
- 1 подписчик
- 19 июн.
- 126 просмотров
3

ответа
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 164 просмотра
2

ответа
Поисковые системы

Простой
Как подменить домен в поисковике?
- 2 подписчика
- 27 мая
- 152 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Какую базу данных нужно использовать для телеграмм бота?
- 1 подписчик
- 10 мая
- 4812 просмотров
9

ответов
IT-образование

+1 ещё

Простой
С чего начать изучение инженерной части БД?
- 2 подписчика
- 23 апр.
- 380 просмотров
3

ответа
Python

+2 ещё

Простой
Корректно ли в данном случае отправляется запрос в базу данных?
- 1 подписчик
- 23 апр.
- 208 просмотров
2

ответа
Базы данных

Простой
БД для дискорд-бота?
- 1 подписчик
- 17 апр.
- 146 просмотров
1

ответ
Показать ещё Загружается…

Системный аналитик

Synapse AI • Москва

от 130 000 ₽

Golang Developer

ITK academy • Казань

от 75 000 до 120 000 ₽

Программист 1С

Первый мясокомбинат • Нижний Новгород

от 100 000 ₽

Answer 1 · 2023-06-27 20:16:01

Все зависит от планируемых размеров (пределы) базы данных, т.е. количества данных, которые необходимо индексировать. Если нужно считанные десятки тысяч сайтов отслеживать, хватит абсолютно любой sql базы данных, миллионы страниц и fulltext индексы хоть postgres хоть mysql хоть самописные на файлах (пока индексы влезают в оперативную память).

Проблемы начинаются когда индексы не влезают в оперативную память, когда база данных расползается по кластеру или когда скоростей интернет провайдера уже не хватает для прохода обновления базы поисковой системы и данные в поиске становятся неактуальными. Начиная с какого то (большого) объема данных, простого поиска по ключевым словам уже будет недостаточно. А чего стоят алгоритмы ранжирования (сортировки результата), ведь на любой запрос у тебя будет больше чем десяток страниц результатов. Потом борьба с сеошниками, фейковыми зонами интернета (когда сайты генерируют терабайты мусорных данных, и узнаешь ты про них когда место на диске кончится или процент их содержания в индексе превысит половину), интеллектуальная интерпретация данных (с этого в принципе нужно начинать, когда страница должна восприниматься не как просто текстовый документ, а набор информационных зон, их важность (реклама, навигация или статья), разделение (несколько статей на странице), проблема динамического интернета (благодаря 15-летним инструкциям люди до сих пор делают сайты в виде ленты с постраничной навигацией с конца, когда 10-ая страница уже завтра будет показывать не те статьи что были вчера) и вообще javascript в частности и тьма тьмущая других проблем.

Конечно, можно шикануть и использовать последние веяния ИИ, когда по информационным блокам на странице, генерируются вектора, определяющие сам смысл содержания, такие, что можно искать по ним, вычисляя расстояние между ними и запросом пользователя, только когда осознаешь стоимость бота, который будет стороить такой индекс по страницам и проблемы монетизации результата, сразу передумаешь.

Answer 2 · 2023-06-27 19:52:48

Из поисковых систем для Full-text search я помню только две. Sphinx, Lucene (на его базе Elastic/Solr). Но насколько они применимы в данном примере - я не знаю. Надо глубже понимать задание. На уровне юз-кейсов.

Зачем тут графовая БД - непонятно. Приведите пример что вы хотите записывать в граф.

Какую базу данных выбрать для поисковой системы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт