Все сервисы Хабра
Сообщество IT-специалистов
Ответы на любые вопросы об IT
Профессиональное развитие в IT
Закрыть
Задать вопрос
Илья Петров
@petruncho
Парсинг
Какие есть способы парсить 5 млн страниц?
Есть сайт
https://www.discogs.com
, с него необходимо спарсить около 5 млн страниц
На сайте server side rendering, HTML структура не меняется
Подскажите, с какими проблемами можно столкнуться при парсинге?
Вопрос задан
22 окт. 2024
208 просмотров
6
комментариев
Подписаться
1
Простой
6
комментариев
Facebook
Вконтакте
Twitter
Владислав Лысков
@Vlatqa
на том, который знаешь
Написано
22 окт. 2024
Dmitry Roo
@xez
Cf когда обойдете - сразу можно к парсингу приступить
Написано
22 окт. 2024
Илья Петров
@petruncho
Автор вопроса
Dmitry Roo
, что такое cf?
Написано
22 окт. 2024
Dmitry Roo
@xez
Илья Петров
, Cloudflare WAF
Написано
22 окт. 2024
Илья Петров
@petruncho
Автор вопроса
Dmitry Roo
, не нашел на Discogs следов CloudFlare
Написано
22 окт. 2024
Dmitry
@q2digger
Илья Петров
, нашел следы CF за тебя, благодарности не надо.
Написано
22 окт. 2024
Решения вопроса
0
Пригласить эксперта
Ответы на вопрос
1
Everything_is_bad
@Everything_is_bad
Любого, ты упрешься в скорость сети и возможные блокировки, а не в ограничение стека. Ну или упрешься в себя, из-за незнания стека.
Ответ написан
22 окт. 2024
2
комментария
Нравится
2
2
комментария
Facebook
Вконтакте
Twitter
Илья Петров
@petruncho
Автор вопроса
Из проблем вижу – бан по IP,
думаю, можно решить через прокси
Написано
22 окт. 2024
Everything_is_bad
@Everything_is_bad
Илья Петров
, я сразу написал про это - "возможные блокировки", но это не ограничения стека.
Написано
22 окт. 2024
Ваш ответ на вопрос
Войдите, чтобы написать ответ
Войти через центр авторизации
Похожие вопросы
Парсинг
Простой
Как анти-бот системы определяют ботов и как от них защищаться?
1 подписчик
13 авг.
182 просмотра
1
ответ
Python
+1 ещё
Простой
Можно ли отключить SSL сертификат при парсинге?
1 подписчик
13 авг.
134 просмотра
0
ответов
Парсинг
Простой
Как или чем скачать закодированные изображения, под заглушкой?
1 подписчик
11 авг.
114 просмотров
2
ответа
Парсинг
+1 ещё
Средний
Есть ли бесплатная возможность получить исторические данные мемкоинов в Solana DEX?
1 подписчик
30 июл.
51 просмотр
0
ответов
Парсинг
+1 ещё
Простой
Ошибка в коде парсера Ozon, что не так?
1 подписчик
26 июл.
216 просмотров
0
ответов
Парсинг
+1 ещё
Простой
Парсинг на Python при помощи tor?
1 подписчик
16 июл.
176 просмотров
3
ответа
Парсинг
+1 ещё
Простой
Datacol программа некоректно работает с прокси, вопрос почему?
1 подписчик
06 июл.
98 просмотров
0
ответов
Парсинг
+4 ещё
Простой
Как отловить фрейм с капчей?
1 подписчик
02 июл.
128 просмотров
0
ответов
JavaScript
+1 ещё
Простой
Как можно получить такой список ссылок?
1 подписчик
01 июл.
288 просмотров
0
ответов
Python
+1 ещё
Простой
Парсинг с помощью библиотеки requests для Python. Как указать параметр из API если в нем заключается недопустимое значение с точками?
1 подписчик
16 июн.
211 просмотров
2
ответа
Показать ещё
Загружается…
Вакансии с Хабр Карьеры
C++ / Qt Разработчик
Алабуга
•
Москва
До 370 000 ₽
Phyton разработчик
Товеко
До 60 000 ₽
Go Developer (RnD)
AppMagic
До 5 000 $
Минуточку внимания
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.
Войти через центр авторизации
Закрыть
Реклама