Сколько весит индекс рунета? Как быстро можно собрать?
Есть пара вопросов, которые меня мучают уже пару лет, решил задать:
1. Сколько примерно может весить поисковый индекс, аналогичный поисковому индексу Яндекса?
2. Каково время одного обхода при наличии 50 серверов с хорошей полосой (допустим в Селектеле)?
3. Те же 2 вопроса при условии обхода только главных страниц русскоязычных сайтов?
p.s. важное условие - исключение из индекса тяжелых медиа и графических файлов (лимит 200 КБайт).
Буду благодарен за версии или данные от осведомленных источников!
если взять вот это за основу: track.ruward.ru/health
получаем 2837959 сайтов. средняя страница весит 100 килобайт (чисто html).
а дальше уже подумать о том как она будет парсицо и что из нее будет выдергивацо и на этой основе посчитать сколько она займет именно в конкретном индексе. у вас ведь нет алгоритма построения индекса от яндекса?)
Индекс не один)
Индексов штук 15 может больше (имеется ввиду в рамках одной ПС), точно не знаю!
А по поводу как долго собирать, напишите Калинину (руководитель отдела поиска мэйл ру). Они сначала поставили гугловский индекс и потихоньку собирают свой вымещая долю гугловского в своем поиске
В поисковой системе Яндекс на июль 2006 года проиндексировано:
сайтов: 2 832 533,
web-страниц: 1 058 914 756,
объем проиндексированной информации: 24 778 ГБ.