Все сервисы Хабра
Сообщество IT-специалистов
Ответы на любые вопросы об IT
Профессиональное развитие в IT
Закрыть
Задать вопрос
Илья Петров
@petruncho
Парсинг
Какие есть способы парсить 5 млн страниц?
Есть сайт
https://www.discogs.com
, с него необходимо спарсить около 5 млн страниц
На сайте server side rendering, HTML структура не меняется
Подскажите, с какими проблемами можно столкнуться при парсинге?
Вопрос задан
22 окт. 2024
210 просмотров
6
комментариев
Подписаться
1
Простой
6
комментариев
Facebook
Вконтакте
Twitter
Владислав Лысков
@Vlatqa
на том, который знаешь
Написано
22 окт. 2024
Dmitry Roo
@xez
Cf когда обойдете - сразу можно к парсингу приступить
Написано
22 окт. 2024
Илья Петров
@petruncho
Автор вопроса
Dmitry Roo
, что такое cf?
Написано
22 окт. 2024
Dmitry Roo
@xez
Илья Петров
, Cloudflare WAF
Написано
22 окт. 2024
Илья Петров
@petruncho
Автор вопроса
Dmitry Roo
, не нашел на Discogs следов CloudFlare
Написано
22 окт. 2024
Dmitry
@q2digger
Илья Петров
, нашел следы CF за тебя, благодарности не надо.
Написано
22 окт. 2024
Решения вопроса
0
Пригласить эксперта
Ответы на вопрос
1
Everything_is_bad
@Everything_is_bad
Любого, ты упрешься в скорость сети и возможные блокировки, а не в ограничение стека. Ну или упрешься в себя, из-за незнания стека.
Ответ написан
22 окт. 2024
2
комментария
Нравится
2
2
комментария
Facebook
Вконтакте
Twitter
Илья Петров
@petruncho
Автор вопроса
Из проблем вижу – бан по IP,
думаю, можно решить через прокси
Написано
22 окт. 2024
Everything_is_bad
@Everything_is_bad
Илья Петров
, я сразу написал про это - "возможные блокировки", но это не ограничения стека.
Написано
22 окт. 2024
Ваш ответ на вопрос
Войдите, чтобы написать ответ
Войти через центр авторизации
Похожие вопросы
Парсинг
Простой
Как получить ID всех ПВЗ?
1 подписчик
24 сент.
167 просмотров
0
ответов
Парсинг
+1 ещё
Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
2 подписчика
23 сент.
166 просмотров
0
ответов
Парсинг
Простой
Как парсить несколько сайтов, отличающихся друг от друга?
2 подписчика
09 сент.
175 просмотров
3
ответа
Node.js
+1 ещё
Простой
В чем разница между selenium, playwright и puppeteer?
3 подписчика
09 сент.
188 просмотров
2
ответа
Node.js
+1 ещё
Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
1 подписчик
08 сент.
108 просмотров
1
ответ
Python
+2 ещё
Средний
Как правильно принимать платежи пользователей в сети Tron?
1 подписчик
03 сент.
184 просмотра
3
ответа
Парсинг
Средний
Как отслеживать парсеров?
4 подписчика
30 авг.
548 просмотров
2
ответа
Парсинг
Простой
Как анти-бот системы определяют ботов и как от них защищаться?
1 подписчик
13 авг.
286 просмотров
1
ответ
Python
+1 ещё
Простой
Можно ли отключить SSL сертификат при парсинге?
1 подписчик
13 авг.
192 просмотра
0
ответов
Парсинг
Простой
Как или чем скачать закодированные изображения, под заглушкой?
1 подписчик
11 авг.
139 просмотров
2
ответа
Показать ещё
Загружается…
Вакансии с Хабр Карьеры
C++ / Qt Разработчик
Алабуга
•
Москва
До 370 000 ₽
Backend Engineer
Kotify
от 250 000 до 400 000 ₽
QA Automation Engineer на проект в Сколково [ОФИС!]
PHOENIX HR
•
Москва
от 215 000 до 220 000 ₽
Минуточку внимания
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.
Войти через центр авторизации
Закрыть
Реклама