Как правильно получить код страницы?

Question

rsefsE @rsefsE

Как правильно получить код страницы?

Я занимаюcь парсингом facebook, и столкнулась с одной проблемой. Если я смотрю код страницы, то вижу красивое html дерево, разбитое на блоки и т.д. Но, когда я получаю soup, то мне приходит, как мне кажется, обфусцированный код страницы. Если вы сталкивались с таким, что вы делали, или, возможно, у вас есть какие-то хорошие источники, где можно понятнее новичку почитать про обфускацию. Буду рада всему. Пример кода, где я получаю soup.

if not self.browser.is_free():
    self.browser.driver.get(url)
#   js_code = "document.getElementsByTagName('html')[0].outerHTML"
#   your_elements = self.browser.driver.execute_script(js_code)
    html = self.browser.driver.page_source

    soup = BeautifulSoup(html, 'html.parser')

    return soup

Вопрос задан более трёх лет назад
257 просмотров

Комментировать

Подписаться 2 Средний Комментировать

Помогут разобраться в теме Все курсы

Skillbox

JavaScript

3 месяца

Далее
Яндекс Практикум

Фронтенд-разработчик расширенный

13 месяцев

Далее
Академия Eduson

Fullstack-разработчик на JavaScript

11 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

2 комментария

rsefsE @rsefsE Автор вопроса

Да, именно это и напугало, я с таким еще не сталкивалась и ищу решение

Написано более трёх лет назад
soremix @SoreMix Куратор тега Python
rsefsE, это просто кодировка

import html html.unescape('Эхо Москвы')
Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- вчера
- 94 просмотра
2

ответа
JavaScript

+2 ещё

Средний
E2EE + WEB = поищем безопасность?
- 1 подписчик
- 20 дек.
- 224 просмотра
2

ответа
Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- 20 дек.
- 131 просмотр
2

ответа
JavaScript

Средний
Как сделать, чтобы легенды не «наежали» на график?
- 1 подписчик
- 19 дек.
- 115 просмотров
1

ответ
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 3 подписчика
- 18 дек.
- 197 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 220 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 77 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 199 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 231 просмотр
1

ответ
JavaScript

+2 ещё

Средний
Как можно реализовать что то вроде селекта внутри родителя у которого есть скрытые элементы и должна быть горизонтальная прокрутка?
- 2 подписчика
- 11 дек.
- 170 просмотров
0

ответов
Показать ещё Загружается…

Fullstack JavaScript разработчик

MakeDifference

от 60 000 до 110 000 ₽

Frontend-разработчик (Vanilla JS, high-load media platform)

Karma8

от 200 000 до 300 000 ₽

React разработчик

ITK academy • Нижний Новгород

от 50 000 до 90 000 ₽

Answer 1 · 2020-07-29 17:05:59

Когда вы смотрите в devtools, вы видите DOM построенный браузером. Браузер распарсил как сумел, поправил ошибки какие смог, привел в красивый вид. Когда вы смотрите именно исходный код (ctrl+U в браузере) - видите что на самом деле пришло с сервера.

HTML-entities не сложно декодировать

import html
x = html.unescape('&#x42d;&#x445;&#x43e; &#x41c;&#x43e;&#x441;&#x43a;&#x432;&#x44b;')
print(x) # -> эхо москвы

https://ideone.com/vtqrhO

Answer 2 · 2020-07-29 16:37:09

Так и не понял в чем проблема.
В F12-> Elements вы видите код страницы, отрендеренный JS скриптом
В Ctrl+U видно исходный код, без обработки JS

В исходном коде дерево не построено потому что так решил Facebook, код не предназначен для чтения людьми, компьютер его понимает и в минимизированном виде.

Или вас кодировка вида

&#x42d;&#x445;&#x43e; &#x41c;&#x43e;&#x441;&#x43a;&#x432;&#x44b;

испугала?

Как правильно получить код страницы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт