Как замедлить процесс парсинга на SELENIUM?

Question

dancer_and_programer @dancer_and_programer

Как замедлить процесс парсинга на SELENIUM?

Всем добрый день. Подскажите пожалуйста, есть парсер на Python, с помощью selenium (webdriver) парсит сайт яндекс месенджер (он на JS): https://yandex.ru/chat/#/chat
а именно популярные каналы. Он кликает на каждый канал и прокручивает вверх ( до самого начала до надписи КАНАЛ СОЗДАН), чтобы посчитать количество публикаций и суммарное количество просмотров под всеми публикациями. Но так как он слишком быстро прокручивает (с помощью этой строки:

for i in range(200):
    driver.execute_script("var evt = document.createEvent('MouseEvents');evt.initEvent('wheel', true, true);evt.deltaY = -100000;document.querySelector('.yamb-conversation__content').dispatchEvent(evt);")
    html2 = driver.page_source
    soup2 = BeautifulSoup(html2, 'lxml')
    time.sleep(2) # после одного прокрута (это 5-6 публикаций) сделать паузу 2 секунды, но такой способ не помогает

То он не все публикации успевает загрузить (т.к. JS не успевает загрузиться). Подскажите, как можно замедлить, а может есть другой способ, чтоб дождаться загрузки js на странице?

Вопрос задан более трёх лет назад
292 просмотра

17 комментариев

Подписаться 1 Простой 17 комментариев

Ross Alex @Wacdis

Попробуй контейнеру, который скроллится скриптом, добавить стиль "scroll-behavior: smooth"

Написано более трёх лет назад

dancer_and_programer @dancer_and_programer Автор вопроса

Yaroslav O., всмысле в конец после ;? Вот так?:

driver.execute_script("var evt = document.createEvent('MouseEvents');evt.initEvent('wheel', true, true);evt.deltaY = -100000;document.querySelector('.yamb-conversation__content').dispatchEvent(evt);scroll-behavior: smooth;")

Написано более трёх лет назад

Ross Alex @Wacdis
dancer_and_programer, нет. Тебе нужно сначала установить свойство стиля, и это не скрипт, а стиль. Нужно вначале скрипта выполнить

document.querySelector('.yamb-conversation__content').style.scrollBehavior = 'smooth';
Написано более трёх лет назад
dancer_and_programer @dancer_and_programer Автор вопроса

Yaroslav O., такая фишка не сработала, но спасибо что ответили

Написано более трёх лет назад
Ross Alex @Wacdis

dancer_and_programer, Вообще, есть метод ожидания появления элемента DOM. А вообще, сейчас зайду по твоей ссылке и попробую, что он делает...

Написано более трёх лет назад
dancer_and_programer @dancer_and_programer Автор вопроса

Yaroslav O., я могу скинуть весь код (пасрер)

Написано более трёх лет назад
Ross Alex @Wacdis

Итак, дело в том, что обычный скроллинг не доскроллит до верха, так как в контейнере '.yamb-conversation__content' на самом деле всегда до 9 постов и когда ты скроллишь вверх, на самом деле нижние 4 исчезают из дерева DOM, а 4 сверху появляются. Поэтому, нужен более интересный парсер строить.

Написано более трёх лет назад
dancer_and_programer @dancer_and_programer Автор вопроса

Yaroslav O., я отправил текст Вам на почту

Написано более трёх лет назад
dancer_and_programer @dancer_and_programer Автор вопроса

Yaroslav O., а что Вы подразумеваете под словом "интересный"? Что можно придумать, чтобы обойти эту проблему со скроллингом? Я поставил цикл 200, но это супер быстро, JS на сайте не успевает загрузиться и некоторые сообщения он просто не видит и сроллит дальше

Написано более трёх лет назад
Ross Alex @Wacdis

dancer_and_programer, нужно выполнять твой скрипт до тех пор, пока не закончится скроллинг. Это можно косвенно проверять по размеру height этого контейнера. А лучше делать "Скролл", потом парсинг, потом скролл, потом опять парсинг и так до тех пор, пока не достигнешь конца. Твой скрипт вполне себе работает.

Написано более трёх лет назад
dancer_and_programer @dancer_and_programer Автор вопроса

Yaroslav O., Вот получается, что скроллит 200 раз (иногда и раньше доходит до самого начала, до надписи КАНАЛ СОЗДАН), но скорость прокрутки большая. Как её замедлить? Он пропускает сообщения из-за супер быстрой прокрутки

Написано более трёх лет назад
dancer_and_programer @dancer_and_programer Автор вопроса
Yaroslav O., под супер быстрой подкруткой я подразумеваю это:

for i in range(200): driver.execute_script("var evt = document.createEvent('MouseEvents');evt.initEvent('wheel', true, true);evt.deltaY = -100000;document.querySelector('.yamb-conversation__content').dispatchEvent(evt);") html2 = driver.page_source soup2 = BeautifulSoup(html2, 'lxml')

он прокручивает 1 раз (т.е. на 9 публикаций), затем берет html старницы и парсит его и добавляет в другую переменную полученные (спарсенные) данные, затем вновь прокручивает на 9 публикаций, парсит html и тд и так 200 раз
Написано более трёх лет назад
Ross Alex @Wacdis

dancer_and_programer, мое решение было бы чуток другим. Я бы написал парсер на JS как функцию и одним вызовом ее выполнил и забрал бы ее значение. Если нужно подождать, дал бы ей 10 секунд и потом забрал бы значение. Собери данные в Object на стороне чата. Это можно сделать в DevTools у Chrome в закладке Sources > Snippets

Написано более трёх лет назад
Ross Alex @Wacdis

dancer_and_programer, цикл прокрутки нужно ставить не со стороны Python, а со стороны JS кода. Результаты парсить можно в результате выполнения метода execute_script
num = driver.execute_script('return myScraper()')

Написано более трёх лет назад
dancer_and_programer @dancer_and_programer Автор вопроса

Yaroslav O., спасибо за решение. Извините, т.е. написать функцию парсера на js, а остальное на питоне? А как их синхронизировать, чтобы они работали вместе? Это же 2 разных языка? Вопрос скорее всего звучит глупо, но в js не разбираюсь

Написано более трёх лет назад
Ross Alex @Wacdis

dancer_and_programer,
1. переходим в окно чата, открывается чат.
2. Удаляем переменную window.activeResult
2. запускаем инъекцию на JS driver.execute_script('(function(){ /* тут код скреппера */})();')(эта функция запустит сама себя). Она должна сканировать и скроллить, готовя массив того, что найдет. Когда скрипт закончит работу, сохраняем его результат в window.activeResult
3. Ждем окончания выполнения, например, ожидая значения переменной window.activeResult объекта window. Это можно реализовать либо циклом через таймауты, либо через метод text_to_be_present_in_element_value. (нужно будет загуглить, как он работает, так как сохранять данные тогда нужно не в activeResult, а в value свойстве элемента DOM.
4. Забираем результат res = driver.execute_script('return window.activeResult')

Как-то так.

Написано более трёх лет назад
dancer_and_programer @dancer_and_programer Автор вопроса

Yaroslav O., спасибо за ответ! А у Вас есть сайты и статьи, где можно со всей этой информацией подружиться и узнать еще новое о таких возможностях js?

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 199 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 524 просмотра
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 486 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 276 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 499 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 212 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 660 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Попробуй контейнеру, который скроллится скриптом, добавить стиль "scroll-behavior: smooth"
Yaroslav O., всмысле в конец после ;? Вот так?:

driver.execute_script("var evt = document.createEvent('MouseEvents');evt.initEvent('wheel', true, true);evt.deltaY = -100000;document.querySelector('.yamb-conversation__content').dispatchEvent(evt);scroll-behavior: smooth;")
dancer_and_programer, нет. Тебе нужно сначала установить свойство стиля, и это не скрипт, а стиль. Нужно вначале скрипта выполнить

document.querySelector('.yamb-conversation__content').style.scrollBehavior = 'smooth';
Yaroslav O., такая фишка не сработала, но спасибо что ответили
dancer_and_programer, Вообще, есть метод ожидания появления элемента DOM. А вообще, сейчас зайду по твоей ссылке и попробую, что он делает...
Yaroslav O., я могу скинуть весь код (пасрер)
Итак, дело в том, что обычный скроллинг не доскроллит до верха, так как в контейнере '.yamb-conversation__content' на самом деле всегда до 9 постов и когда ты скроллишь вверх, на самом деле нижние 4 исчезают из дерева DOM, а 4 сверху появляются. Поэтому, нужен более интересный парсер строить.
Yaroslav O., я отправил текст Вам на почту
Yaroslav O., а что Вы подразумеваете под словом "интересный"? Что можно придумать, чтобы обойти эту проблему со скроллингом? Я поставил цикл 200, но это супер быстро, JS на сайте не успевает загрузиться и некоторые сообщения он просто не видит и сроллит дальше
dancer_and_programer, нужно выполнять твой скрипт до тех пор, пока не закончится скроллинг. Это можно косвенно проверять по размеру height этого контейнера. А лучше делать "Скролл", потом парсинг, потом скролл, потом опять парсинг и так до тех пор, пока не достигнешь конца. Твой скрипт вполне себе работает.
Yaroslav O., Вот получается, что скроллит 200 раз (иногда и раньше доходит до самого начала, до надписи КАНАЛ СОЗДАН), но скорость прокрутки большая. Как её замедлить? Он пропускает сообщения из-за супер быстрой прокрутки
Yaroslav O., под супер быстрой подкруткой я подразумеваю это:

for i in range(200): driver.execute_script("var evt = document.createEvent('MouseEvents');evt.initEvent('wheel', true, true);evt.deltaY = -100000;document.querySelector('.yamb-conversation__content').dispatchEvent(evt);") html2 = driver.page_source soup2 = BeautifulSoup(html2, 'lxml')

он прокручивает 1 раз (т.е. на 9 публикаций), затем берет html старницы и парсит его и добавляет в другую переменную полученные (спарсенные) данные, затем вновь прокручивает на 9 публикаций, парсит html и тд и так 200 раз
dancer_and_programer, мое решение было бы чуток другим. Я бы написал парсер на JS как функцию и одним вызовом ее выполнил и забрал бы ее значение. Если нужно подождать, дал бы ей 10 секунд и потом забрал бы значение. Собери данные в Object на стороне чата. Это можно сделать в DevTools у Chrome в закладке Sources > Snippets
dancer_and_programer, цикл прокрутки нужно ставить не со стороны Python, а со стороны JS кода. Результаты парсить можно в результате выполнения метода execute_script
num = driver.execute_script('return myScraper()')
Yaroslav O., спасибо за решение. Извините, т.е. написать функцию парсера на js, а остальное на питоне? А как их синхронизировать, чтобы они работали вместе? Это же 2 разных языка? Вопрос скорее всего звучит глупо, но в js не разбираюсь
dancer_and_programer,
1. переходим в окно чата, открывается чат.
2. Удаляем переменную window.activeResult
2. запускаем инъекцию на JS driver.execute_script('(function(){ /* тут код скреппера */})();')(эта функция запустит сама себя). Она должна сканировать и скроллить, готовя массив того, что найдет. Когда скрипт закончит работу, сохраняем его результат в window.activeResult
3. Ждем окончания выполнения, например, ожидая значения переменной window.activeResult объекта window. Это можно реализовать либо циклом через таймауты, либо через метод text_to_be_present_in_element_value. (нужно будет загуглить, как он работает, так как сохранять данные тогда нужно не в activeResult, а в value свойстве элемента DOM.
4. Забираем результат res = driver.execute_script('return window.activeResult')

Как-то так.
Yaroslav O., спасибо за ответ! А у Вас есть сайты и статьи, где можно со всей этой информацией подружиться и узнать еще новое о таких возможностях js?

Answer 1 · 2020-06-10 09:04:48

Лучше сделать так:

for i in range(200):
    driver.execute_script("var evt = document.createEvent('MouseEvents');evt.initEvent('wheel', true, true);evt.deltaY = -100000;document.querySelector('.yamb-conversation__content').dispatchEvent(evt);")
    time.sleep(2)
    html2 = driver.page_source
    soup2 = BeautifulSoup(html2, 'lxml')

В твоём варианте ты выполняешь прокрутку, считываешь содержимое страницы, а только затем делаешь паузу. Зачем?
В моём же варианте, ты сначала выполняешь прокрутку, делаешь паузу (в это время контент успевает загрузиться) и уже только потом считываешь содержимое страницы.

И ссылка для общего развития: https://selenium-python.readthedocs.io/waits.html

Как замедлить процесс парсинга на SELENIUM?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт