Все сервисы Хабра
Сообщество IT-специалистов
Ответы на любые вопросы об IT
Профессиональное развитие в IT
Закрыть
Задать вопрос
Илья Петров
@petruncho
Парсинг
Какие есть способы парсить 5 млн страниц?
Есть сайт
https://www.discogs.com
, с него необходимо спарсить около 5 млн страниц
На сайте server side rendering, HTML структура не меняется
Подскажите, с какими проблемами можно столкнуться при парсинге?
Вопрос задан
22 окт. 2024
200 просмотров
6
комментариев
Подписаться
1
Простой
6
комментариев
Facebook
Вконтакте
Twitter
Владислав Лысков
@Vlatqa
на том, который знаешь
Написано
22 окт. 2024
Dmitry Roo
@xez
Cf когда обойдете - сразу можно к парсингу приступить
Написано
22 окт. 2024
Илья Петров
@petruncho
Автор вопроса
Dmitry Roo
, что такое cf?
Написано
22 окт. 2024
Dmitry Roo
@xez
Илья Петров
, Cloudflare WAF
Написано
22 окт. 2024
Илья Петров
@petruncho
Автор вопроса
Dmitry Roo
, не нашел на Discogs следов CloudFlare
Написано
22 окт. 2024
Dmitry
@q2digger
Илья Петров
, нашел следы CF за тебя, благодарности не надо.
Написано
22 окт. 2024
Решения вопроса
0
Пригласить эксперта
Ответы на вопрос
1
Everything_is_bad
@Everything_is_bad
Любого, ты упрешься в скорость сети и возможные блокировки, а не в ограничение стека. Ну или упрешься в себя, из-за незнания стека.
Ответ написан
22 окт. 2024
2
комментария
Нравится
2
2
комментария
Facebook
Вконтакте
Twitter
Илья Петров
@petruncho
Автор вопроса
Из проблем вижу – бан по IP,
думаю, можно решить через прокси
Написано
22 окт. 2024
Everything_is_bad
@Everything_is_bad
Илья Петров
, я сразу написал про это - "возможные блокировки", но это не ограничения стека.
Написано
22 окт. 2024
Ваш ответ на вопрос
Войдите, чтобы написать ответ
Войти через центр авторизации
Похожие вопросы
Парсинг
Средний
Эмуляция браузера в Docker в headless режиме для парсинга, какие есть варианты запустить полноценный браузер?
3 подписчика
12 мар.
607 просмотров
0
ответов
Python
+1 ещё
Простой
В чем ошибка при парсинге на python?
1 подписчик
11 мар.
203 просмотра
2
ответа
API
+1 ещё
Средний
Откуда брать информацию по лайв матчам Dota2 как у популярных сайтов?
3 подписчика
11 мар.
718 просмотров
0
ответов
Парсинг
Простой
Как парсить динамические сайты на python?
1 подписчик
08 мар.
178 просмотров
3
ответа
Python
+1 ещё
Средний
Как выполнить Olx парсинг номера?
3 подписчика
08 мар.
780 просмотров
2
ответа
Парсинг
+2 ещё
Простой
Способ обхода CloudFlare 2025?
3 подписчика
03 мар.
1080 просмотров
2
ответа
WordPress
+1 ещё
Средний
Wordpress записи доступны только после ручного обновления?
1 подписчик
19 февр.
67 просмотров
1
ответ
Парсинг
Средний
Как выгрузить реестр арбитражных управляющих с почтой, телефоном и другими данными с сайта Росреестра?
1 подписчик
18 февр.
97 просмотров
1
ответ
Парсинг
+1 ещё
Средний
Как правильно обернуть undetected-chromedriver для парсинга?
2 подписчика
16 февр.
340 просмотров
0
ответов
Парсинг
Простой
Как спарсить сайт с авторизацией через смс?
1 подписчик
07 февр.
106 просмотров
3
ответа
Показать ещё
Загружается…
Вакансии с Хабр Карьеры
Парсер для сайта
Rotormine
от 10 000 до 100 000 ₽
Phyton разработчик
Товеко
До 60 000 ₽
IT - специалист
ГК Трасса
•
Москва
До 100 000 ₽
Минуточку внимания
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.
Войти через центр авторизации
Закрыть
Реклама