Задать вопрос

Архитектура приложения для парсинга большого числа страниц

Добрый день.
Помогите, пожалуйста, со следующим вопросом:

Каждый день нужно сверять цены для ~10 миллионов товаров.
Раньше такое количество никогда не обрабатывал (особенно в заданные временные промежутки) , поэтому есть сомнения в реализации подобного.
Как прикинуть достаточную мощность сервера (или серверов ?), пропускную способность и подобное. Какую БД лучше использовать, возможно даже ЯП. Сколько потоков запускать и подобное.
Что бы вы использовали для подобной задачи? Размер страницы ~100кб , время отдачи ~ 2c + ~2c на прокси.

Спасибо
  • Вопрос задан
  • 3064 просмотра
Подписаться 4 Оценить 2 комментария
Пригласить эксперта
Ответы на вопрос 1
Эксперемент критерий истины. Чушь. 100 килобайт парсить плевое дело. Я на работе 2 мегабайта на JS парсил на клиенте. При этом со сложной логикой перестроения DOM. + делал все асинхронно, чтобы браузер не вис.
В твоем случае обычным регулярным выражением можно все быстро спарсить одной строкой, получив на выходе массив. Или DOM селектором.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
Алабуга Москва
До 370 000 ₽
Betnetix Ростов-на-Дону
от 80 000 до 250 000 ₽
Strikt Москва
от 100 000 до 180 000 ₽