Почему bs4 неверно парсит страницу?

Question

Alena_Y @Alena_Y

Почему bs4 неверно парсит страницу?

Доброго времени суток, пытаюсь спарсить аватарку вконтакте, в качестве примера взяла Павла Дурова, часть кода следующая:

import bs4
import requests

def getting_avatar(id):
request = requests.get("https://vk.com/id" + id)
b = bs4.BeautifulSoup(request.text, "html.parser")
print(b)

getting_avatar(1)

Проблема состоит в том, что страница по адресу Павел Дуров | ВКонтакте содержит около 2500 строк, среди которых как раз-таки нужный тег с требуемым id = profile_photo_link, а результат ...

Вопрос задан более трёх лет назад
517 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

13 комментариев

Alena_Y @Alena_Y Автор вопроса

А каким путем тогда пойти?

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

Alena_Y, Или vk api или selenium.

Написано более трёх лет назад
Alena_Y @Alena_Y Автор вопроса

Сергей Карбивничий, спасибо, попробую селениум, но все же, на странице Дурова id="profile_photo_link" (строка 255) находится в теге div, который находится в теге aside, а тот, в свою очередь, в body, там вроде нет js

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

Alena_Y, Посмотрел, можно спарсить. Щас.

Написано более трёх лет назад
Alena_Y @Alena_Y Автор вопроса

Сергей Карбивничий, попробовала, возбуждает ошибку: AtributeError: "Nonetype" object has no attribute "a"

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

Alena_Y,

Написано более трёх лет назад
Alena_Y @Alena_Y Автор вопроса

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python
Alena_Y, Может вк вам капчу отдает? Попробуйте выполнить данный код, потом откройте в браузере index.html:

import requests response = requests.get('https://vk.com/id') with open('index.html','w') as file: file.write(response.text)
Написано более трёх лет назад
Alena_Y @Alena_Y Автор вопроса

Сергей Карбивничий, код выполняется без ошибок, а сайт www.index.html не найден

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

Alena_Y, Да нет. В папке со скрипом должен появится файл index.html

Написано более трёх лет назад
Alena_Y @Alena_Y Автор вопроса

А, точно, прошу прощения, вот его содержимое:

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python
Alena_Y, Я сделал ошибку. Вместо vk.com/id нужно vk.com/id1

import requests response = requests.get('https://vk.com/id1') with open('index.html','w') as file: file.write(response.text)
Написано более трёх лет назад
Alena_Y @Alena_Y Автор вопроса

что-то не так с кодировкой
response.encoding = "utf-8" не помогло

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 214 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 575 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 503 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 287 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 518 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 216 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 332 просмотра
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 667 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 347 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2020-07-02 01:28:15

Вопрос решила, можно сделать вот так:

import urllib
from selenium import webdriver
import random
import urllib.request

url = input()
driver = webdriver.Chrome()
driver.get(url)
with open('filename.png', 'wb') as file:
file.write(driver.find_element_by_xpath('//*[@id="profile_photo_link"]/img').screenshot_as_png)
driver.close()

Answer 2 · 2020-07-01 14:18:00

import requests
from bs4 import BeautifulSoup
import json

response = requests.get('https://vk.com/id1')

soup = BeautifulSoup(response.text,'html.parser')
avatar = soup.find('div',id='page_avatar').a.get('onclick')
json_raw = avatar[avatar.find('{'):avatar.rfind('}')+1] #Здесь вытаскивает json
json_data = json.loads(json_raw)
print(json_data['temp']['x']) # Получаем из json url аватарки

requests не умеет javascript.

Answer 3 · 2020-07-01 14:26:54

Guerro69 @Guerro69

Попробуйте спарсить картинку обратясь к методу вк:
https://api.vk.com/method/users.get?user_ids=1&fie...

Ответ написан более трёх лет назад

Комментировать

Почему bs4 неверно парсит страницу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт