Архитектура приложения для парсинга большого числа страниц

Добрый день.
Помогите, пожалуйста, со следующим вопросом:

Каждый день нужно сверять цены для ~10 миллионов товаров.
Раньше такое количество никогда не обрабатывал (особенно в заданные временные промежутки) , поэтому есть сомнения в реализации подобного.
Как прикинуть достаточную мощность сервера (или серверов ?), пропускную способность и подобное. Какую БД лучше использовать, возможно даже ЯП. Сколько потоков запускать и подобное.
Что бы вы использовали для подобной задачи? Размер страницы ~100кб , время отдачи ~ 2c + ~2c на прокси.

Спасибо
  • Вопрос задан
  • 3062 просмотра
Пригласить эксперта
Ответы на вопрос 1
Эксперемент критерий истины. Чушь. 100 килобайт парсить плевое дело. Я на работе 2 мегабайта на JS парсил на клиенте. При этом со сложной логикой перестроения DOM. + делал все асинхронно, чтобы браузер не вис.
В твоем случае обычным регулярным выражением можно все быстро спарсить одной строкой, получив на выходе массив. Или DOM селектором.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы