Selenium возвращает обрезанный ответ. Как получить весь код страницы?

Question

Dao131 @Dao131

Selenium возвращает обрезанный ответ. Как получить весь код страницы?

Пытаюсь парсить сайт https://www.houzz.ru/professionals/remont-i-otdelk...

Ниже приведен код, который я использую.

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
import time


chromedriver = r'E:/ProgrammFiles/chromdriver/chromedriver.exe'
opts = Options()
opts.add_argument("user-agent=Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36")
opts.add_argument('-headless')
browser = webdriver.Chrome(service=Service(r'E:/ProgrammFiles/chromdriver/chromedriver.exe'), options=opts)
browser.get('https://www.houzz.ru/professionals/remont-i-otdelka-kvartir-i-domov')
content = ''
while True:
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(1)
    if content != browser.page_source:
        content = browser.page_source
        continue
    else:
        break
time.sleep(10)
requiredHtml = browser.execute_script("return document.body.innerHTML;")
print(requiredHtml)

Это ответ, который я получаю.

https://pastebin.com/txVmHsNH

Первая строка это json, но она как-то обрезана с самого начала (ещё я её сократил, чтобы поместился код ответа на pastebin) и в ней хранится не совсем ожидаемая информация.

Мне нужно получить либо json, хранящийся в

<script id="hz-ctx" type="application/json">...</script>

, либо напрямую html, который позже можно будет распарсить с помощью BeautifulSoup.

Подскажите, пожалуйста, как это можно сделать на этом сайте.

Вопрос задан более трёх лет назад
359 просмотров

13 комментариев

Подписаться 2 Простой 13 комментариев

Jeff_Parker @Jeff_Parker
Я никогда не писал на питоне, но в строчке
requiredHtml = browser.execute_script("return document.body.innerHTML;")

Ты получаешь тело body, а тег script располагается, как правило, в head или после body. Попробуй получить innerHTML всего документа
Написано более трёх лет назад
Dao131 @Dao131 Автор вопроса

Jeff_Parker, В моем случае он располагается в body.

Написано более трёх лет назад
Jeff_Parker @Jeff_Parker

Dao131, https://pastebin.com/fCKneU30 ссылка не действительна

Написано более трёх лет назад
Dao131 @Dao131 Автор вопроса

Jeff_Parker, Поправил ссылку. Вот новая: https://pastebin.com/txVmHsNH
Сам ответ json сократил, чтобы pastebin позволил добавить код. Но начало оставил нетронутым, такое же оборванное оно мне и приходит.

Написано более трёх лет назад
Jeff_Parker @Jeff_Parker

Dao131, ссылка все так же не работает, выложи на codepen

Написано более трёх лет назад
Dao131 @Dao131 Автор вопроса

Jeff_Parker, Странно.
Вот на codepen https://codepen.io/Dao131/pen/bGYmaqX
Вставил всё в блок html

Написано более трёх лет назад
Jeff_Parker @Jeff_Parker

Dao131, не скажу как, повторюсь, я не шарю за питон, но на node js я повторял запросы к серверу. Тебе, для начала, надо найти тот запрос в devtools во вкладке Network который отвечает за json, а также метод который в питоне это вытягивает

Написано более трёх лет назад
Dao131 @Dao131 Автор вопроса

Jeff_Parker, При прокрутке страницы уходят такие get запросы. Но как из них что-то выдернуть, ума не приложу.
А у тебя на node js ответ нормальный приходит или как у меня?

Написано более трёх лет назад
Jeff_Parker @Jeff_Parker

Dao131, мне приходит JSON, так как я его и запрашиваю. Ты же вроде как просишь innerHTML, но он, я подозреваю, приходит тем самым json'ом. Свой запрос я нашел во вкладке Fetch/XHR

Написано более трёх лет назад
Dao131 @Dao131 Автор вопроса

Jeff_Parker, А какой запрос ты отправляешь? Я так понимаю вот по этому запросу приходит json, но если перейти по ссылке, в ответ ничего не приходит. Чего-то я уже запутался.

Написано более трёх лет назад
Dao131 @Dao131 Автор вопроса

Jeff_Parker, А всё, вопрос отпал. Ответ до нелепости прост. Просто в консоли IDE не помещался весь ответ.

Написано более трёх лет назад
Алан Гибизов @phaggi Куратор тега Python

Dao131, советую написать найденный ответ в ответы, указать какой ide, какой объем пытались отобразить в консоли и какой влез - может быть полезно другим.

Написано более трёх лет назад
Jeff_Parker @Jeff_Parker

Dao131, хаха, очень часто у меня так и получается, то дурацкая ошибка типизации в формуле, то из-за недейственного прокси не удается запросы делать. Короче, надо внимательнее быть)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Сложный
Как обойти uefi при создании собственной операционной системы?
- 1 подписчик
- 5 часов назад
- 116 просмотров
2

ответа
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 10 часов назад
- 42 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 206 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 222 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 620 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 538 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 300 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 553 просмотра
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 223 просмотра
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 136 просмотров
1

ответ
Показать ещё Загружается…

Я никогда не писал на питоне, но в строчке
requiredHtml = browser.execute_script("return document.body.innerHTML;")

Ты получаешь тело body, а тег script располагается, как правило, в head или после body. Попробуй получить innerHTML всего документа
Jeff_Parker, В моем случае он располагается в body.
Dao131, https://pastebin.com/fCKneU30 ссылка не действительна
Jeff_Parker, Поправил ссылку. Вот новая: https://pastebin.com/txVmHsNH
Сам ответ json сократил, чтобы pastebin позволил добавить код. Но начало оставил нетронутым, такое же оборванное оно мне и приходит.
Dao131, ссылка все так же не работает, выложи на codepen
Jeff_Parker, Странно.
Вот на codepen https://codepen.io/Dao131/pen/bGYmaqX
Вставил всё в блок html
Dao131, не скажу как, повторюсь, я не шарю за питон, но на node js я повторял запросы к серверу. Тебе, для начала, надо найти тот запрос в devtools во вкладке Network который отвечает за json, а также метод который в питоне это вытягивает
Jeff_Parker, При прокрутке страницы уходят такие get запросы. Но как из них что-то выдернуть, ума не приложу.
А у тебя на node js ответ нормальный приходит или как у меня?
Dao131, мне приходит JSON, так как я его и запрашиваю. Ты же вроде как просишь innerHTML, но он, я подозреваю, приходит тем самым json'ом. Свой запрос я нашел во вкладке Fetch/XHR
Jeff_Parker, А какой запрос ты отправляешь? Я так понимаю вот по этому запросу приходит json, но если перейти по ссылке, в ответ ничего не приходит. Чего-то я уже запутался.
Jeff_Parker, А всё, вопрос отпал. Ответ до нелепости прост. Просто в консоли IDE не помещался весь ответ.
Dao131, советую написать найденный ответ в ответы, указать какой ide, какой объем пытались отобразить в консоли и какой влез - может быть полезно другим.
Dao131, хаха, очень часто у меня так и получается, то дурацкая ошибка типизации в формуле, то из-за недейственного прокси не удается запросы делать. Короче, надо внимательнее быть)

Selenium возвращает обрезанный ответ. Как получить весь код страницы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт