Все сервисы Хабра
Сообщество IT-специалистов
Ответы на любые вопросы об IT
Профессиональное развитие в IT
Закрыть
Задать вопрос
Илья Петров
@petruncho
Парсинг
Какие есть способы парсить 5 млн страниц?
Есть сайт
https://www.discogs.com
, с него необходимо спарсить около 5 млн страниц
На сайте server side rendering, HTML структура не меняется
Подскажите, с какими проблемами можно столкнуться при парсинге?
Вопрос задан
22 окт. 2024
206 просмотров
6
комментариев
Подписаться
1
Простой
6
комментариев
Facebook
Вконтакте
Twitter
Владислав Лысков
@Vlatqa
на том, который знаешь
Написано
22 окт. 2024
Dmitry Roo
@xez
Cf когда обойдете - сразу можно к парсингу приступить
Написано
22 окт. 2024
Илья Петров
@petruncho
Автор вопроса
Dmitry Roo
, что такое cf?
Написано
22 окт. 2024
Dmitry Roo
@xez
Илья Петров
, Cloudflare WAF
Написано
22 окт. 2024
Илья Петров
@petruncho
Автор вопроса
Dmitry Roo
, не нашел на Discogs следов CloudFlare
Написано
22 окт. 2024
Dmitry
@q2digger
Илья Петров
, нашел следы CF за тебя, благодарности не надо.
Написано
22 окт. 2024
Решения вопроса
0
Пригласить эксперта
Ответы на вопрос
1
Everything_is_bad
@Everything_is_bad
Любого, ты упрешься в скорость сети и возможные блокировки, а не в ограничение стека. Ну или упрешься в себя, из-за незнания стека.
Ответ написан
22 окт. 2024
2
комментария
Нравится
2
2
комментария
Facebook
Вконтакте
Twitter
Илья Петров
@petruncho
Автор вопроса
Из проблем вижу – бан по IP,
думаю, можно решить через прокси
Написано
22 окт. 2024
Everything_is_bad
@Everything_is_bad
Илья Петров
, я сразу написал про это - "возможные блокировки", но это не ограничения стека.
Написано
22 окт. 2024
Ваш ответ на вопрос
Войдите, чтобы написать ответ
Войти через центр авторизации
Похожие вопросы
PHP
+1 ещё
Средний
Как получить дерево категорий в PHP Simple HTML DOM Parser?
1 подписчик
12 апр.
57 просмотров
0
ответов
Python
+2 ещё
Простой
Как парсить динамическую таблицу с помощью selenium?
2 подписчика
09 апр.
115 просмотров
0
ответов
Python
+2 ещё
Простой
Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку «показать еще», чтобы подгрузило еще 20 постов?
1 подписчик
08 апр.
136 просмотров
2
ответа
Парсинг
+1 ещё
Простой
У меня не получается спарсить ссылку на фото с сайта, help?
1 подписчик
07 апр.
177 просмотров
2
ответа
HTML
+2 ещё
Простой
Как просмотреть скрытый sitemap.xml?
1 подписчик
27 мар.
167 просмотров
3
ответа
Парсинг
Простой
Как получить значение атрибута в PHP Simple HTML DOM Parser?
1 подписчик
23 мар.
48 просмотров
1
ответ
Парсинг
Средний
Эмуляция браузера в Docker в headless режиме для парсинга, какие есть варианты запустить полноценный браузер?
3 подписчика
12 мар.
678 просмотров
0
ответов
Python
+1 ещё
Простой
В чем ошибка при парсинге на python?
1 подписчик
11 мар.
267 просмотров
2
ответа
API
+1 ещё
Средний
Откуда брать информацию по лайв матчам Dota2 как у популярных сайтов?
4 подписчика
11 мар.
811 просмотров
0
ответов
Парсинг
Простой
Как парсить динамические сайты на python?
1 подписчик
08 мар.
220 просмотров
3
ответа
Показать ещё
Загружается…
Вакансии с Хабр Карьеры
Project Manager / Analyst
Boomerangme 🎫
от 2 000 до 2 500 $
С++ developer
КОД ГРИН Инжиниринг
•
Санкт-Петербург
от 30 000 ₽
Automation QA
Skillaz
•
Москва
До 250 000 ₽
Минуточку внимания
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.
Войти через центр авторизации
Закрыть
Реклама