Архитектура приложения для парсинга большого числа страниц

Question

ivanaverin @ivanaverin

Парсинг

Архитектура приложения для парсинга большого числа страниц

Добрый день.
Помогите, пожалуйста, со следующим вопросом:

Каждый день нужно сверять цены для ~10 миллионов товаров.
Раньше такое количество никогда не обрабатывал (особенно в заданные временные промежутки) , поэтому есть сомнения в реализации подобного.
Как прикинуть достаточную мощность сервера (или серверов ?), пропускную способность и подобное. Какую БД лучше использовать, возможно даже ЯП. Сколько потоков запускать и подобное.
Что бы вы использовали для подобной задачи? Размер страницы ~100кб , время отдачи ~ 2c + ~2c на прокси.

Спасибо

Вопрос задан более трёх лет назад
3065 просмотров

2 комментария

Подписаться 4 Оценить 2 комментария

Помогут разобраться в теме Все курсы

AndroidSprint

Попробуйте себя в роли разработчика за 10 дней

1 неделя

Далее
Stepik

Парсинг на Python для начинающих

2 недели

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 170 просмотров
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 245 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 199 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 204 просмотра
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 255 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 130 просмотров
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 221 просмотр
3

ответа
Парсинг

Средний
Как отслеживать парсеров?
- 4 подписчика
- 30 авг.
- 569 просмотров
2

ответа
Python

+2 ещё

Простой
Как анти-бот системы определяют ботов и как от них защищаться?
- 2 подписчика
- 13 авг.
- 425 просмотров
1

ответ
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 206 просмотров
0

ответов
Показать ещё Загружается…

Инженер по инцидентам информационной безопасности

SMALL

от 3 400 до 4 700 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Программист

ПРО-ДСК

До 120 000 ₽

Тут сама задача выглядит странно. Целевой ресурс готов морально и технически, что вы (хорошо, если не ещё сотня таких же) будете его насиловать со скоростью 100rps? :)
Может, есть возможность сделать выгрузку цен в xml/csv/whatever и уже нормально работать с дампом?
Думаю готов, так как это один из гигантов. Возможности делать выгрузку, к сожалению, нет.

Answer 1 · 2014-05-30 01:15:31

Эксперемент критерий истины. Чушь. 100 килобайт парсить плевое дело. Я на работе 2 мегабайта на JS парсил на клиенте. При этом со сложной логикой перестроения DOM. + делал все асинхронно, чтобы браузер не вис.
В твоем случае обычным регулярным выражением можно все быстро спарсить одной строкой, получив на выходе массив. Или DOM селектором.

Архитектура приложения для парсинга большого числа страниц

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт