Есть сайт
https://tender.rosneft.ru/. Реально ли его спарсить через BeautifulSoup4 ? Смотрю код страницы на сайте - одно, BeautifulSoup4 выдает другое. Как я понял он парасит код другого сайта роснефти (
https://www.rosneft.ru/). только вот почему?...Я ноль в парсинге, попросили сделать, решил попробовать. Буду благодарен за любые советы/помощь )
На сайте:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<title>Роснефть : Тендеры </title>
<link rel="stylesheet" href="/css/style.css" type="text/css">
<style type="text/css">
через BeautifulSoup4:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xml:lang="ru" xmlns="http://www.w3.org/1999/xhtml">
<head>
<title></title>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="" name="keywords"/>
<meta content="" name="description"/>
Мой код:
import requests
from bs4 import BeautifulSoup
url = 'https://tender.rosneft.ru/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
print(soup)