Все сервисы Хабра
Сообщество IT-специалистов
Ответы на любые вопросы об IT
Профессиональное развитие в IT
Закрыть
Задать вопрос
Илья Петров
@petruncho
Парсинг
Какие есть способы парсить 5 млн страниц?
Есть сайт
https://www.discogs.com
, с него необходимо спарсить около 5 млн страниц
На сайте server side rendering, HTML структура не меняется
Подскажите, с какими проблемами можно столкнуться при парсинге?
Вопрос задан
более года назад
213 просмотров
6
комментариев
Подписаться
1
Простой
6
комментариев
Facebook
Вконтакте
Twitter
Владислав Лысков
@Vlatqa
на том, который знаешь
Написано
более года назад
Dmitry Roo
@xez
Cf когда обойдете - сразу можно к парсингу приступить
Написано
более года назад
Илья Петров
@petruncho
Автор вопроса
Dmitry Roo
, что такое cf?
Написано
более года назад
Dmitry Roo
@xez
Илья Петров
, Cloudflare WAF
Написано
более года назад
Илья Петров
@petruncho
Автор вопроса
Dmitry Roo
, не нашел на Discogs следов CloudFlare
Написано
более года назад
Dmitry
@q2digger
Илья Петров
, нашел следы CF за тебя, благодарности не надо.
Написано
более года назад
Помогут разобраться в теме
Все курсы
OTUS
iOS Developer
12 месяцев
Далее
Stepik
Парсинг на Python для начинающих
2 недели
Далее
AndroidSprint
Попробуйте себя в роли разработчика за 10 дней
1 неделя
Далее
Решения вопроса
0
Пригласить эксперта
Ответы на вопрос
1
Everything_is_bad
@Everything_is_bad
Любого, ты упрешься в скорость сети и возможные блокировки, а не в ограничение стека. Ну или упрешься в себя, из-за незнания стека.
Ответ написан
более года назад
2
комментария
Нравится
2
2
комментария
Facebook
Вконтакте
Twitter
Илья Петров
@petruncho
Автор вопроса
Из проблем вижу – бан по IP,
думаю, можно решить через прокси
Написано
более года назад
Everything_is_bad
@Everything_is_bad
Илья Петров
, я сразу написал про это - "возможные блокировки", но это не ограничения стека.
Написано
более года назад
Ваш ответ на вопрос
Войдите, чтобы написать ответ
Войти через центр авторизации
Похожие вопросы
Веб-разработка
+1 ещё
Простой
Каким образом правильно сделать скрипт?
2 подписчика
15 нояб.
259 просмотров
2
ответа
Python
+1 ещё
Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
2 подписчика
14 окт.
179 просмотров
0
ответов
Парсинг
Простой
Как получить ID всех ПВЗ?
1 подписчик
24 сент.
254 просмотра
0
ответов
Парсинг
+1 ещё
Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
2 подписчика
23 сент.
202 просмотра
0
ответов
Парсинг
Простой
Как парсить несколько сайтов, отличающихся друг от друга?
2 подписчика
09 сент.
205 просмотров
3
ответа
Node.js
+4 ещё
Простой
В чем разница между selenium, playwright и puppeteer?
3 подписчика
09 сент.
283 просмотра
2
ответа
Node.js
+1 ещё
Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
1 подписчик
08 сент.
131 просмотр
1
ответ
Python
+2 ещё
Средний
Как правильно принимать платежи пользователей в сети Tron?
1 подписчик
03 сент.
223 просмотра
3
ответа
Парсинг
Средний
Как отслеживать парсеров?
4 подписчика
30 авг.
570 просмотров
2
ответа
Python
+2 ещё
Простой
Как анти-бот системы определяют ботов и как от них защищаться?
2 подписчика
13 авг.
450 просмотров
1
ответ
Показать ещё
Загружается…
Вакансии с Хабр Карьеры
Разработчик JavaScript/NodeJS, специалист технической поддержки
A-Parser
от 600 до 800 $
Инженер по инцидентам информационной безопасности
SMALL
от 3 400 до 4 700 $
Backend Engineer
Kotify
от 3 000 до 5 000 €
Минуточку внимания
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.
Войти через центр авторизации
Закрыть
Реклама