Имеет ли смысл делать многопоточный парсер?

Question

beduin01 @beduin01

Имеет ли смысл делать многопоточный парсер?

Пишу парсер большого сайта. Возник вопрос. Стоит ли его делать многопоточным?
1. Не приведет ли слишком много потоков к бану IP парсера? Проверить это можно только экспериментально?
2. Скорость парсинга вырастет пропорционально количеству потоков или не все так просто?
3. В какие ограничения я могу упереться из-за чего скорость расти не будет?

Вопрос задан более трёх лет назад
3476 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

OTUS

iOS Developer

12 месяцев

Далее
Stepik

Парсинг на Python для начинающих

2 недели

Далее
AndroidSprint

Попробуйте себя в роли разработчика за 10 дней

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- вчера
- 220 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 312 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 187 просмотров
0

ответов
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 616 просмотров
1

ответ
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 254 просмотра
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 202 просмотра
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 205 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 285 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 133 просмотра
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 227 просмотров
3

ответа
Показать ещё Загружается…

Разработчик JavaScript/NodeJS, специалист технической поддержки

A-Parser

от 600 до 800 $

Инженер по инцидентам информационной безопасности

SMALL

от 3 400 до 4 700 $

Backend Engineer

Kotify

от 3 000 до 5 000 €

Answer 1 · 2015-03-01 23:36:00

Делал парсер Ebay, сначала в один поток, потом мультикурлом. Скорость поднялась в 15 раз.
Чтобы не забанили, создал кучу разных юзерагентов и каждый раз рандомом скармливал мультикурлу новый.

Понятно, что IP все равно был один и тот же, но никто не знает, какой там механизм автобана (а их там есть). В итоге за год так и не забанили :)

Answer 2 · 2015-04-16 15:20:47

1. Конечно может привести. Перед граббингом всегда можно прочесть robot.txt на предмет наличия директив Crawl-delay/Request-rate. Однако реальные цифры можно получить только в ходе работы (по возникновению HTTP статусов отличных от 200). По хорошему в ходе работы нужно копить статистику и динамически подстраивать скорость обхода.
2. Нет, как и в обычной технике не пропорционально. Степень падения КПД зависит от конечно архитектуры приложения.
3. Различного рода блокировки (I/O диска/сети, записи в базу, прочее), ограничения ОСи (количество открытых портов, лимиты на I/O диска), низкая скорость отдачи со сграбливаемого ресурса.

Имеет ли смысл делать многопоточный парсер?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт