@drqqv

Реально ли спарсить сайт роснефти?

Есть сайт https://tender.rosneft.ru/. Реально ли его спарсить через BeautifulSoup4 ? Смотрю код страницы на сайте - одно, BeautifulSoup4 выдает другое. Как я понял он парасит код другого сайта роснефти (https://www.rosneft.ru/). только вот почему?...Я ноль в парсинге, попросили сделать, решил попробовать. Буду благодарен за любые советы/помощь )

На сайте:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">



<html>

<head>

	<title>Роснефть : Тендеры </title>

<link rel="stylesheet" href="/css/style.css" type="text/css">

<style type="text/css">


через BeautifulSoup4:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xml:lang="ru" xmlns="http://www.w3.org/1999/xhtml">
<head>
<title></title>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="" name="keywords"/>
<meta content="" name="description"/>


Мой код:
import requests
from bs4 import BeautifulSoup

url = 'https://tender.rosneft.ru/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')


print(soup)
  • Вопрос задан
  • 172 просмотра
Пригласить эксперта
Ответы на вопрос 1
den_rad
@den_rad
PHP разработчик
Посмотрите, какие хеадеры Accept и User Agent передает ваша библиотека, скорее всего она запрашивает XHTML.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы