@chtopisatsuda

Через что парсить сайт на Python?

На чем парсить сайт
Какую библиотеку использовать ибо Bs4 и Selenium блокает соединение сам сайт.
Или может использовать другой ЯП?
  • Вопрос задан
  • 111 просмотров
Пригласить эксперта
Ответы на вопрос 1
@suzo
17 лет, программист самоучка
Ну я с начало использовал requests (я так понимаю ты тут имел в виду bs4), для того что бы делать запросы к серверу и собирать инфу, после перешёл на curl_cffi. Curl_cffi как то быстрее работает, и он собирает нужную инфу. К примеру попробуй достать обычный get запросом спарсить этот сайт. Если его парсить через обычный requests, отправляя все заголовки запросов что есть в условном хроме, то тебе отдаст html разметку для ботов. А curl_cffi получает нужную html разметку. Про то что сайт блокает selen такое может быть, сайты зачастую видят что ты запускаешься через selen и это нужно обходить. Есть много библиотек и статей для undetected selenium, просто погугли.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы