Сколько весит индекс рунета? Как быстро можно собрать?

Есть пара вопросов, которые меня мучают уже пару лет, решил задать:
1. Сколько примерно может весить поисковый индекс, аналогичный поисковому индексу Яндекса?
2. Каково время одного обхода при наличии 50 серверов с хорошей полосой (допустим в Селектеле)?

3. Те же 2 вопроса при условии обхода только главных страниц русскоязычных сайтов?

p.s. важное условие - исключение из индекса тяжелых медиа и графических файлов (лимит 200 КБайт).

Буду благодарен за версии или данные от осведомленных источников!
  • Вопрос задан
  • 610 просмотров
Пригласить эксперта
Ответы на вопрос 2
stasuss
@stasuss
быдлокодер со стажем
если взять вот это за основу:
track.ruward.ru/health
получаем 2837959 сайтов. средняя страница весит 100 килобайт (чисто html).

а дальше уже подумать о том как она будет парсицо и что из нее будет выдергивацо и на этой основе посчитать сколько она займет именно в конкретном индексе. у вас ведь нет алгоритма построения индекса от яндекса?)
Ответ написан
Комментировать
Viverov
@Viverov
Индекс не один)
Индексов штук 15 может больше (имеется ввиду в рамках одной ПС), точно не знаю!

А по поводу как долго собирать, напишите Калинину (руководитель отдела поиска мэйл ру). Они сначала поставили гугловский индекс и потихоньку собирают свой вымещая долю гугловского в своем поиске
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы