cblp
@cblp
говорящий с машинами

Помогите с созданием специализированного поискового движка

Собираюсь написать нечто вроде специализированного поисковика. Он будет бродить по большому количество ресурсов (не только по вебу, и не только по [гипер]текстовым ресурсам) открытого Интернета, извлекать нужную мне информацию и складывать в базу данных (с чёткой структурой, искать надо по одним полям чётко, по другим полнотекстово).

Требования:
— минимизировать задержку между изменением ресурса и его переиндексацией;
— максимизировать скорость извлечения полезных данных из базы по разным запросам (причём одни запросы будут задаваться чаще других, это может помочь).

Начать хочу с proof of concept — программного решения, которое, будучи запущенным на одном сервере (физическом или в облаке), доказало бы состоятельность самой идеи извлечения данного рода сведений. Потом, если всё получится, расширять и углублять сервис.

Дайте ссылок на материалы по теме, готовые решения, билиотеки, фрэймворки, языки, хотя бы годные ключевые слова для поиска.
  • Вопрос задан
  • 2471 просмотр
Пригласить эксперта
Ответы на вопрос 2
@b0n3Z
Готовое решение с открытыми исходниками: Nutch. Все нужное для поиска там есть, в том числе масштабируемость, если вы подрубите к нему Hadoop.
Ответ написан
opium
@opium
Просто люблю качественно работать
Скопируйте архитектуру того же гугла, а то требования у вас размыты.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы