Задать вопрос
@cicatrix
было бы большой ошибкой думать

Полнотекстовый поиск по документам?

Имеется несколько десятков тысяч документов MS Word неструктурированного вида, как в формате DOC, так и DOCX на русском языке. Требуется иметь возможность осуществлять полнотектовый поиск по всем этим документам с учётом русской морфологии (т. е. в выдачу должны попадать все формы слова, либо наоборот, только в одной конкретной словоформе) + желательно иметь возможность указывать, что, например слово А должно быть рядом со словом Б (в пределах 10 слов, например).
Сейчас пользуюсь самописным инструментом с регулярными выражениями, но они не совсем то, что нужно. Puggle не сильно умеет в русскую морфологию.
Слышал, что был вроде какой-то продукт от Яндекса, но не нашел.
Кто-нибудь знает похожие продукты?
  • Вопрос задан
  • 602 просмотра
Подписаться 2 Простой Комментировать
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Python-разработчик
    10 месяцев
    Далее
  • Skillbox
    1C-разработчик
    8 месяцев
    Далее
  • Нетология
    Python-разработчик с нуля
    6 месяцев
    Далее
Решения вопроса 1
2ord
@2ord
Поисковый движок Sphinx умеет искать на русском языке, имеет свой язык запросов SphinxQL.
Индексировать документы сам не умеет, нужно использовать дополнительные компоненты для извлечения текста из них. sphinxsearch.com/forum/view.html?id=8289

Зато DocFetcher умеет искать в документах, индексируя при помощи Apache Lucene, в котором поддержка морфологии русского языка присутвует.
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы