Как организовать хранение большого количества текстовых документов с возможностью поиска по ним?

Question

Евгений @evgen_dev

Веб-разработчик

Как организовать хранение большого количества текстовых документов с возможностью поиска по ним?

Приветствую!

Имеется:
- Арендованный сервер
- Около 200 млн. документов в виде HTML разметки, общим весом в 6+ ТБ
- Каждый документ ссылается на один или несколько документов (html ссылки в тексте)

Задача:
1. Организовать хранилище этих документов, с возможностью достаточно быстрого поиска как по тексту документа (с учетом морфологии), так и фильтрации по другим параметрам (даты, категории и тп).
2. Дополнительно нужна возможность отображения документов, которые ссылаются на выбранный документ.

Что выбрать для реализации, что бы не иметь проблем с производительностью? Справится ли связка MySql + ElasticSearch или лучше выбрать что-то другое ?

Спасибо!

Вопрос задан более трёх лет назад
154 просмотра

2 комментария

Подписаться 2 Средний 2 комментария

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 129 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 105 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 362 просмотра
2

ответа
Elasticsearch

Простой
Как настроить workflow (n8n v2.3.5) для работы Chat->AI Anget ->Model-Elastcsearch?
- 2 подписчика
- 02 мар.
- 129 просмотров
0

ответов
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 246 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 215 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 223 просмотра
2

ответа
Elasticsearch

Средний
Как правильно удалять старые данные из индексов elasticsearch?
- 1 подписчик
- 06 февр.
- 191 просмотр
1

ответ
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 317 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 166 просмотров
1

ответ
Показать ещё Загружается…

Больше похоже что сфинкс с файлами будет быстрее. Но не факт. Просто как вариант к рассмотрению.
ThunderCat, Да, сфинкс тоже рассматриваем, но в сфинксе не особо нравится тот факт, что у него будет свой отдельный индекс (который тоже будет не мало весить) и в итоге, придется хранить тексты в индексе сфинкса, и еще где-то хранить необработанные оригиналы.

В добавок у сфинкса очень ограниченная поддержка языков (ru и en), а документы на русском и украинском языках. По этой причине ES нравится больше.

Спасибо за комментарий!

Answer 1 · 2019-10-08 13:00:33

Я бы попробовал сделать на ES без каких либо связок. То есть открываем документ, получаем контент и добавляем в индекс ES. Вдобавок можете распарсить документ на ссылки и добавить в индекс их, тогда вам не нужна никакая БД

Как организовать хранение большого количества текстовых документов с возможностью поиска по ним?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт