Полнотекстовый поиск

Question

RomanovAS @RomanovAS

Полнотекстовый поиск

Здравствуйте, уважаемые специалисты!

Возникла необходимость реализовать поиск по базе документов размером от 100 до 150 гигабайт. Среди документов встречаются форматы: текст, HTML, PDF, OpenOffice, OpenDocument, Microsoft Word/Excel, RTF.

Поиск будут осуществлять около 300 человек постоянно подключенных к базе, люди находятся в разных городах России.

Тексты на русском языке.

Что посоветуете?

1. Какие системы для реализации такого поиска существуют?
2. Возможно ли проиндексировать такой объём информации?
3. Долго ли будет осуществляться поиск по такой базе данных?
4. Какой мощности сервер необходимо выделить для решения такой задачи?
5. Где лучше хранить индексы?
6. Возможно ли получить доступ к поисковому движку через PHP?
7. Сроки реализации задачи?

Заранее спасибо за помощь!

Вопрос задан более трёх лет назад
7629 просмотров

Комментировать

Подписаться 11 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

2 комментария

3 комментария

RomanovAS @RomanovAS Автор вопроса

Насколько легко его настроить? И какой сервер для него нужен?

Написано более трёх лет назад
Renat Ibragimov @MpaK999

Насколько легко его вам будет настроить я не могу ответить, так как не знаю вашей квалификации, но в общем-то было не сложно. Сервер под 150 GB документов нужен нормальный, побольше памяти так как внутри все же Java, потому 32-64 GB RAM было бы не плохо.
Кстати, уже stemmer русского языка включен в стандартный пакет.

Написано более трёх лет назад
RomanovAS @RomanovAS Автор вопроса

Спасибо, этот вариант тоже рассмотрю.

Написано более трёх лет назад

4 комментария

RomanovAS @RomanovAS Автор вопроса

А как у него с русским и различными форматами документов?

Написано более трёх лет назад
vosi @vosi

есть, через систему плагинов
но он пока, местами, не очень стабильный… у меня, например, часто не вносятся документы в индекс по причине глюков плагина русской морфологии

Написано более трёх лет назад
sajgak @sajgak

Работал на нем с базой товаров (естественно смешеный русский и английский языки), кроме полнотекстового поиска еще использовался как быстрая временная база данных для фронта. Никаких проблем с базой товаров (с огромным количеством предложений в каждом, хранящимся в виде вложенного массива + атрибуты) размером около 3 с половиной милионов записей не наблюдалось. Морфологический поиск работал так же стабильно.

Написано более трёх лет назад
RomanovAS @RomanovAS Автор вопроса

Спасибо! Будем рассматривать все варианты.

Написано более трёх лет назад

2 комментария

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 2 подписчика
- 19 часов назад
- 150 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- вчера
- 177 просмотров
4

ответа
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб.
- 68 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 226 просмотров
2

ответа
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 194 просмотра
1

ответ
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб.
- 177 просмотров
2

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 173 просмотра
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 293 просмотра
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 272 просмотра
2

ответа
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 562 просмотра
1

ответ
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Answer 1 · 2012-11-23 08:37:48

А вы не смотрели в сторону Sphinx или, например Zend Lucene. Это первое, что пришло в голову. Хотя, честно говоря, не уверен, насколько они подходят для конкретной задачи.

Answer 2 · 2012-11-23 09:41:53

Solr умеет очень хорошо индексировать документы — lucene.apache.org/solr/ надо немного с русским языком будет подшаманить.
Не скажу за PHP адаптер (но он должен быть), есть REST API, так что всё легко.

Answer 3 · 2012-11-23 10:26:01

Вместо Solr советую использовать ElasticSearch. Оба они пострены на Lucene, но в эластике намного лучше обстоят дела со скоростью добавления, изменения документов в индексе + шардинг из коробки. Работал с обоими системами, даже субъективно у эластика более user-friendly язык запросов

Answer 4 · 2012-11-23 08:58:57

Если говорить про Sphinx, то ему в качестве источника данных нужна БД (чтобы он с помощью sql вытащил данные) или xml (xml-pipes). То есть перед тем, как настраивать сфинкс, вам надо будет все ваши документы или записать в БД, или переконвертировать в xml. Тут можно несколько вариантов решения придумать, смотря что вам надо. Предположим, вам не нужен полнотекстовый поиск по документам, вы можете каждому документу назначить ключевые слова, тогда в xml вы можете записать ключевые слова и название документа, поиск осуществляется по ключевым словам, выдается документ. Ну или полностью вытаскивать текст из документов, ложить в БД (придумав структуру перед этим), осуществлять полнотекстовый поиск.
Про объемы: 100-150 ГБ это конечно много, хотя возможно, когда вы вытащите текст из документов, объем подсократится, но не факт. Но учтите, что Sphinx строит индексы, а они займут минимум раза в три больше места. Поэтому диска нужно будет минимум террабайт и по возможности побыстрее.
По железу: у меня есть поиск по 1ГБ таблице спокойно(и очень шустро) работает на 512 метрах оперативы на 1 ядре на хостинге под дебианом 5.5. Индексер можно ограничить потребление памяти, тогда он будет индексировать медленней. Но можно настроить, чтобы индексировал только то, что надо.

А способов реализации много, но все зависит от того, что вам надо на выходе получить, как искать и что.

Answer 5 · 2012-11-23 09:19:27

cat_crash @cat_crash

Возможно панацея — company.yandex.ru/technologies/server/
Sphinx — не умеет нидексировать файлы.

Ответ написан более трёх лет назад

1 комментарий

Полнотекстовый поиск

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт