Задать вопрос
@RAMS_007

Какие есть современные методы парсинга сайтов?

Добрый день коллеги. подскажите что сейчас использует прогрессивное человечество для парсинга сайтов?
Уверен есть что-то поновее обычно CURL.
В частности столкнулся с проблемой парсинга такой страницы:
https://www.bloomberg.com/profiles/companies/00035...
испробовал :
CURL в командной строке,
CURL в php,
Guzzle (тот же курл но в красивой обёртке),
PhantomJS,
python requests,
python scrapy,
nightmareJs ( единственный кто первый раз показал страницу но потом снова не работал)

ничего из этого не помогло. каким-то образом сайт определяет парсеры и не отдаёт данные. Странно но обычный запрос через POSTMAN работает нормально.

Поделитесь опытом, или в таком случае только Селениум может справиться?
  • Вопрос задан
  • 433 просмотра
Подписаться 2 Простой 5 комментариев
Пригласить эксперта
Ответы на вопрос 1
dimonchik2013
@dimonchik2013
non progredi est regredi
Scrapy + все что нужно от них же, в т.ч. для JS

Блумберг, если чо, чотенькие пацанчики и просто так сграбить себя не дают, но проксями впнами в разумных пределах запросто
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы