Почему bs4 неверно парсит страницу?

Question

Alena_Y @Alena_Y

Почему bs4 неверно парсит страницу?

Доброго времени суток, пытаюсь спарсить аватарку вконтакте, в качестве примера взяла Павла Дурова, часть кода следующая:

import bs4
import requests

def getting_avatar(id):
request = requests.get("https://vk.com/id" + id)
b = bs4.BeautifulSoup(request.text, "html.parser")
print(b)

getting_avatar(1)

Проблема состоит в том, что страница по адресу Павел Дуров | ВКонтакте содержит около 2500 строк, среди которых как раз-таки нужный тег с требуемым id = profile_photo_link, а результат ...

Вопрос задан более трёх лет назад
513 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

13 комментариев

Alena_Y @Alena_Y Автор вопроса

А каким путем тогда пойти?

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

Alena_Y, Или vk api или selenium.

Написано более трёх лет назад
Alena_Y @Alena_Y Автор вопроса

Сергей Карбивничий, спасибо, попробую селениум, но все же, на странице Дурова id="profile_photo_link" (строка 255) находится в теге div, который находится в теге aside, а тот, в свою очередь, в body, там вроде нет js

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

Alena_Y, Посмотрел, можно спарсить. Щас.

Написано более трёх лет назад
Alena_Y @Alena_Y Автор вопроса

Сергей Карбивничий, попробовала, возбуждает ошибку: AtributeError: "Nonetype" object has no attribute "a"

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

Alena_Y,

Написано более трёх лет назад
Alena_Y @Alena_Y Автор вопроса

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python
Alena_Y, Может вк вам капчу отдает? Попробуйте выполнить данный код, потом откройте в браузере index.html:

import requests response = requests.get('https://vk.com/id') with open('index.html','w') as file: file.write(response.text)
Написано более трёх лет назад
Alena_Y @Alena_Y Автор вопроса

Сергей Карбивничий, код выполняется без ошибок, а сайт www.index.html не найден

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

Alena_Y, Да нет. В папке со скрипом должен появится файл index.html

Написано более трёх лет назад
Alena_Y @Alena_Y Автор вопроса

А, точно, прошу прощения, вот его содержимое:

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python
Alena_Y, Я сделал ошибку. Вместо vk.com/id нужно vk.com/id1

import requests response = requests.get('https://vk.com/id1') with open('index.html','w') as file: file.write(response.text)
Написано более трёх лет назад
Alena_Y @Alena_Y Автор вопроса

что-то не так с кодировкой
response.encoding = "utf-8" не помогло

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 151 просмотр
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 265 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 169 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 259 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 161 просмотр
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 611 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 134 просмотра
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 148 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 565 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 150 просмотров
2

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2020-07-02 01:28:15

Вопрос решила, можно сделать вот так:

import urllib
from selenium import webdriver
import random
import urllib.request

url = input()
driver = webdriver.Chrome()
driver.get(url)
with open('filename.png', 'wb') as file:
file.write(driver.find_element_by_xpath('//*[@id="profile_photo_link"]/img').screenshot_as_png)
driver.close()

Answer 2 · 2020-07-01 14:18:00

import requests
from bs4 import BeautifulSoup
import json

response = requests.get('https://vk.com/id1')

soup = BeautifulSoup(response.text,'html.parser')
avatar = soup.find('div',id='page_avatar').a.get('onclick')
json_raw = avatar[avatar.find('{'):avatar.rfind('}')+1] #Здесь вытаскивает json
json_data = json.loads(json_raw)
print(json_data['temp']['x']) # Получаем из json url аватарки

requests не умеет javascript.

Answer 3 · 2020-07-01 14:26:54

Guerro69 @Guerro69

Попробуйте спарсить картинку обратясь к методу вк:
https://api.vk.com/method/users.get?user_ids=1&fie...

Ответ написан более трёх лет назад

Комментировать

Почему bs4 неверно парсит страницу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт