Какой движок заюзать для поисковика по html коду?

Какой движок заюзать для поисковика по html коду ?
т.е. например мне нужно по запросу < a class="link-class-href"
получить все данные где есть эта инфа.

объем предполагается около 1-10млрд документов
с таким объемом хорошо справится сфинкс, но там насколько я помню нет возможности поиска по html.
  • Вопрос задан
  • 813 просмотров
Пригласить эксперта
Ответы на вопрос 4
maaGames
@maaGames
Погроммирую программы
Парсить 10 МИЛЛИАРДОВ страниц в реальном времени и на Яве? Не смешите мои тапочки!
Вам нужно проиндексировать тэги(или классы, что вы там будете искать) всех страниц (в офлайне, на любом языке), а уже потом искать в этих таблицах. Т.е. искать будете не по самим HTML, а по базе данных тэгов(классов). С линейным поиском в 10 миллиардах страниц не справится даже ассемблер. Если конечно пользователь не готов подождать пару часов до получения результата.
Ответ написан
@rodion-dev Автор вопроса
хотя 1млрд страниц на одном серваке это конечно не будет работать
нужно хотябы 20 нод с хорошей конфигурацией
Ответ написан
Комментировать
Я знаю что вы собираетесь спарсить ;) Я бы не советовал складывать страницы в индекс, а советовал бы каждый раз обращаться к сайту потому что данные могут измениться. На хабре блог яндекса гляньте там у них парсер парсит со скоростью 240 тыс. в минуту это значит что на 1 миллиард у вас уйдёт 69 часов. Это если со скорость С++ парсить
Если средняя страница весит 30кб то на 1 млрд страниц у вас уйдёт 27 террабайт места ))
Ответ написан
Комментировать
xapian неплохо себя показал когда я пробовал
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы