Какие есть современные методы парсинга сайтов?

Question

RAMS_007 @RAMS_007

Парсинг

Какие есть современные методы парсинга сайтов?

Добрый день коллеги. подскажите что сейчас использует прогрессивное человечество для парсинга сайтов?
Уверен есть что-то поновее обычно CURL.
В частности столкнулся с проблемой парсинга такой страницы:
https://www.bloomberg.com/profiles/companies/00035...
испробовал :
CURL в командной строке,
CURL в php,
Guzzle (тот же курл но в красивой обёртке),
PhantomJS,
python requests,
python scrapy,
nightmareJs ( единственный кто первый раз показал страницу но потом снова не работал)

ничего из этого не помогло. каким-то образом сайт определяет парсеры и не отдаёт данные. Странно но обычный запрос через POSTMAN работает нормально.

Поделитесь опытом, или в таком случае только Селениум может справиться?

Вопрос задан более трёх лет назад
434 просмотра

5 комментариев

Подписаться 2 Простой 5 комментариев

sim3x @sim3x

В https://www.bloomberg.com/professional/support/api... нет требуемых данных?

Написано более трёх лет назад
FulTupFul @FulTupFul

requests получаешь контент. Beautiful Soupом парсишь контент. Для spa selenium с js

Написано более трёх лет назад
RAMS_007 @RAMS_007 Автор вопроса

sim3x, посмотрю но тут даже принципиальный вопрос. есть и другие "сложные" сайты.. тот самый амазон например. сейчас его удаётся у меня только селениумом парсить.. но селениум очень громоздкий.

Написано более трёх лет назад
planc @planc

RAMS_007,
проблема то в чем ?

httpie мне отдал контент например

может ты за натом и тебя на cloudflare кидает с картинкой "отметить все светофоры" ?

Написано более трёх лет назад
sim3x @sim3x

RAMS_007, нет никакого "общего" подхода, который будет со всеми сайтами работать

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 168 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 168 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 176 просмотров
3

ответа
Node.js

+1 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 188 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 109 просмотров
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 185 просмотров
3

ответа
Парсинг

Средний
Как отслеживать парсеров?
- 4 подписчика
- 30 авг.
- 549 просмотров
2

ответа
Парсинг

Простой
Как анти-бот системы определяют ботов и как от них защищаться?
- 1 подписчик
- 13 авг.
- 287 просмотров
1

ответ
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 193 просмотра
0

ответов
Парсинг

Простой
Как или чем скачать закодированные изображения, под заглушкой?
- 1 подписчик
- 11 авг.
- 140 просмотров
2

ответа
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Москва

До 370 000 ₽

Backend Engineer

Kotify

от 250 000 до 400 000 ₽

QA Automation Engineer на проект в Сколково [ОФИС!]

PHOENIX HR • Москва

от 215 000 до 220 000 ₽

В https://www.bloomberg.com/professional/support/api... нет требуемых данных?
requests получаешь контент. Beautiful Soupом парсишь контент. Для spa selenium с js
sim3x, посмотрю но тут даже принципиальный вопрос. есть и другие "сложные" сайты.. тот самый амазон например. сейчас его удаётся у меня только селениумом парсить.. но селениум очень громоздкий.
RAMS_007,
проблема то в чем ?

httpie мне отдал контент например

может ты за натом и тебя на cloudflare кидает с картинкой "отметить все светофоры" ?
RAMS_007, нет никакого "общего" подхода, который будет со всеми сайтами работать

Answer 1 · 2018-10-26 21:26:42

Scrapy + все что нужно от них же, в т.ч. для JS

Блумберг, если чо, чотенькие пацанчики и просто так сграбить себя не дают, но проксями впнами в разумных пределах запросто

Какие есть современные методы парсинга сайтов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт