Имеется несколько десятков тысяч документов MS Word неструктурированного вида, как в формате DOC, так и DOCX на русском языке. Требуется иметь возможность осуществлять полнотектовый поиск по всем этим документам с учётом русской морфологии (т. е. в выдачу должны попадать все формы слова, либо наоборот, только в одной конкретной словоформе) + желательно иметь возможность указывать, что, например слово А должно быть рядом со словом Б (в пределах 10 слов, например).
Сейчас пользуюсь самописным инструментом с регулярными выражениями, но они не совсем то, что нужно. Puggle не сильно умеет в русскую морфологию.
Слышал, что был вроде какой-то продукт от Яндекса, но не нашел.
Кто-нибудь знает похожие продукты?
Поисковый движок Sphinx умеет искать на русском языке, имеет свой язык запросов SphinxQL.
Индексировать документы сам не умеет, нужно использовать дополнительные компоненты для извлечения текста из них. sphinxsearch.com/forum/view.html?id=8289
Зато DocFetcher умеет искать в документах, индексируя при помощи Apache Lucene, в котором поддержка морфологии русского языка присутвует.