@cicatrix
было бы большой ошибкой думать

Полнотекстовый поиск по документам?

Имеется несколько десятков тысяч документов MS Word неструктурированного вида, как в формате DOC, так и DOCX на русском языке. Требуется иметь возможность осуществлять полнотектовый поиск по всем этим документам с учётом русской морфологии (т. е. в выдачу должны попадать все формы слова, либо наоборот, только в одной конкретной словоформе) + желательно иметь возможность указывать, что, например слово А должно быть рядом со словом Б (в пределах 10 слов, например).
Сейчас пользуюсь самописным инструментом с регулярными выражениями, но они не совсем то, что нужно. Puggle не сильно умеет в русскую морфологию.
Слышал, что был вроде какой-то продукт от Яндекса, но не нашел.
Кто-нибудь знает похожие продукты?
  • Вопрос задан
  • 583 просмотра
Решения вопроса 1
2ord
@2ord
Поисковый движок Sphinx умеет искать на русском языке, имеет свой язык запросов SphinxQL.
Индексировать документы сам не умеет, нужно использовать дополнительные компоненты для извлечения текста из них. sphinxsearch.com/forum/view.html?id=8289

Зато DocFetcher умеет искать в документах, индексируя при помощи Apache Lucene, в котором поддержка морфологии русского языка присутвует.
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы