Добрый день.
Я учусь в магистратуре и научная работа связана с темой информационного поиска. Так получилось, что для выполнения моих задач мне необходима поисковая система, в которой уже реализованы основные алгоритмы, есть поддержка русской морфологии и т.д. Сам поиск будет осуществляться по дампу статей русской Википедии. Моим руководителем был предложен в качестве поискового движка Solr. Однако, я посмотрел документацию по нему, немного поковырял и он показался не очень удобным для работы. А потом натолкнулся на Elasticsearch. В связи с тем, что еще ни разу не работал с готовыми поисковыми системами, возникли вопросы. Буду благодарен, если поможете разрешить их:
1) Какой из них лучше выбрать для полноценного поиска по русским текстам?
2) Необходимо загрузить и проиндексировать дамп Википедии. Для Solr из-за его распространенности есть различные варианты выполнения данной задачи, но они все кажутся не слишком удобными. Для Elasticsearch же нашел меньше решений. Однако, встретил вариант CirrusSearch (
https://dumps.wikimedia.org/other/), который вроде как является дампом индексов статей в формате, пригодном для загрузки в elastic. Кто-нибудь проходил такой путь загрузки Википедии?
3) На данный момент все пишу на Python, поэтому возникает вопрос в работе с движком на этом языке. С кем из них удобнее/проще взаимодействовать на этом языке?
4) Расширяемость функционала. Например, добавление своих ранжирующих функций и т.д.
Уверен, что вопросы покажутся тривиальными для знающих, но все же хотелось бы получить на них ответ. Заранее спасибо.