Как с помощью Selenium правильно спарсить данные сайта, подгружаемые динамически?

Question

R4ndolphC4rter @R4ndolphC4rter

Как с помощью Selenium правильно спарсить данные сайта, подгружаемые динамически?

Здравствуйте!
Поставил для себя цель: написать программу, которая бы скачивала видео все/выборочно с какого-либо (поиск осуществляется по логину) аккаунта tikitok.
Данную задачу я разделил на подзадачи. И с одной из подзадач (а она самая важная) возникла проблема. Не получается программно загрузить контент сайта. Например, я взял случайный популярный аккаунт https://www.tiktok.com/@egorkreed . Сначала пытался с помощью библиотеки requests в связке с bs4 получить html страницу. Понял, что этот способ не подходит. Страница генерируется динамически. Решил использовать библиотеку Selenium.

Код для подзадачи:

spoiler

Сейчас я максимально упростил код

import time
from selenium import webdriver

URL = 'https://www.tiktok.com/@egorkreed'


def get_html(url):
    driver = webdriver.Chrome()
    driver.get(url)

get_html(URL)

Данный код открывает страницу:

Результат: Бесконечная попытка прогрузки видео.

Но, если я перейду по той же ссылке через браузер вручную, то результат будет следующим:

Не понимаю в чём проблема.
Вопрос:
Как грамотно получить код html страницы с помощью Selenium, чтобы контент (клипы) отображались?

P.S.
пробовал использовать адаптированный под мою программу код из примера документации с ожиданием

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Firefox()
driver.get("http://somedomain/url_that_delays_loading")
try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "myDynamicElement"))
    )
finally:
    driver.quit()

Какое бы время ожидания (10, 50, 100...) я не ставил, результатом программы является исключение. Нужный элемент не найден.

Вопрос задан более трёх лет назад
1492 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Профессия Python-разработчик + ИИ

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

8 комментариев

Лев Антропов @SMYLA

То есть сервис-воркер не дает в любом случае webdriver (Селениума-Питона) нужный контент?
Есть какой-то способ обойти это, не переходя на Java?

Написано более трёх лет назад
сергей кузьмин @sergueik

Лев Антропов - я только успел попробоваль то что описал и обнаружил что иногда работает .
по моему технических затруднений в создании рабочего приложения из хоста (ов) с нужными компонентами нет -

вопрос о том почему не работает из коробки хром и работает ли самый новый FF, почему и где ломается, вместо джава сделать питон клиент и т. д. - задать и решить можно, вероятно будет довольно трудоемко

Написано более трёх лет назад
R4ndolphC4rter @R4ndolphC4rter Автор вопроса

сергей кузьмин, спасибо за ответ. Новый FireFox, как и Chrome, не работает, только что проверил. На Java переходить не планировал. Продолжу искать решение проблемы для python+selenium.

Написано более трёх лет назад
сергей кузьмин @sergueik

R4ndolphC4rter а старый FF + P ? какая часть вызывает сложности ? (не сарказм - может могу помочь

Написано более трёх лет назад
R4ndolphC4rter @R4ndolphC4rter Автор вопроса

сергей кузьмин, для работы в python selenium'a с firefox требуется скачать geckodriver. Из старых версий я нашёл только версию драйвера v0.19.0 для Firefox 55.0 и выше. Скачал Firefox 55.0. Запускал один и тот же код раз 10. Из них страница загрузилась 1 раз (Да! Загрузилась с контентом!). Остальные же попытки просто бесконечно грузят страницу (Даже не загружают её. Просто белый экран).
Меня смущает данный способ своей нестабильностью и долгим временем загрузки, но спасибо! Это хоть какой-то прогресс.

Написано более трёх лет назад
сергей кузьмин @sergueik

R4ndolphC4rter спасибо
поставьте еще более древние FF - работал напрямую без геки - и селениум.
если вы не сотрудник taktok то вы не обязаны на всех его тестровать - вам я полагаю урлы нужны а не шашечки

КСТАТИ дайте вашкод с FF remotedriver - попробовать на моей стороне..

могу предложить Vagrantfile с легаси браузерами и там всякими вкусняшками - трасти 14.04 или зениал 16.04

Написано более трёх лет назад
R4ndolphC4rter @R4ndolphC4rter Автор вопроса
сергей кузьмин, вот мой код:

import time from selenium import webdriver URL = 'https://www.tiktok.com/@egorkreed' def get_html(url): driver = webdriver.Firefox() driver.get(url) # time.sleep(1000) get_html(URL)

Версия Firefox 40
Версия selenium 2.47 сейчас, ещё пробовал 2.45.
Как я понял разница только в скорости открытия браузера (в ранней версии перед открытием я ждал секунд 15-25, в 2.47 это действие занимает около 5 секунд).
Первый запуск - страница загрузилась с контентом. Последующие запуски выводят страницу, но вместо контента "точки" загрузки. Хочу заметить, что они НЕанимированные, как, например, в Chrome.

могу предложить Vagrantfile с легаси браузерами и там всякими вкусняшками - трасти 14.04 или зениал 16.04

Про подобное ничего не слышал, но почитаю.
Написано более трёх лет назад
сергей кузьмин @sergueik

читать нечего особо вот гит - понравилость ставьте звезду
https://github.com/sergueik/selenium-fluxbox

в "коде" используйте remoreDriver

кста - джава версия стабильно и всегда дергает

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 216 просмотров
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 232 просмотра
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 76 просмотров
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 106 просмотров
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 99 просмотров
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 120 просмотров
1

ответ
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 468 просмотров
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 3 подписчика
- 05 мар.
- 1000 просмотров
4

ответа
Python

Простой
Как запретить удаление полей класса?
- 1 подписчик
- 27 февр.
- 322 просмотра
1

ответ
Парсинг

Простой
Как спарсить Интернет Магазин?
- 1 подписчик
- 27 февр.
- 374 просмотра
4

ответа
Показать ещё Загружается…

Middle Python developer

ITK academy • Краснодар

от 220 000 до 300 000 ₽

Python Developer

ITK academy • Краснодар

от 75 000 ₽

Python разработчик

DimaTech Ltd • Краснодар

от 140 000 до 140 000 ₽

Answer 1 · 2020-01-29 21:35:22

Программно у меня не прогружаются блоки (содержащии видео)

<div class="jsx-1410658769 video-feed-item">
...
</div>

Из-за чего проблема? Как можно было бы исправить?

02.02.2020 (дата палиндром, кста)
Покопавшись по сайту обнаружил, что нужные мне id видео, а так же дополнительная информация о видео приходит в формате json (в пачке из 30 штук) по requests get запросу на адрес

https://m.tiktok.com/share/item/list?secUid=MS4wLjABAAAAel1W8SHY_s5E-E8fS9SFwEGKTV4TqtP-GotZf737nudl9M5gm99Pk_8bp8A0UXS8&id=6568346904743116806&type=1&count=30&minCursor=0&maxCursor=0&shareUid=&lang=&_signature=N5.bMAAgEBaTTMphzSDYUTef2iAAGmv

В этой ссылке передаются различные параметры.
Важные из них:
&maxCursor=N
&_signature=LONG_STRING
Если делать запрос без правильной сигнатуры, то json файл будет, грубо говоря, пуст. Никакой нужной информации.

Так что теперь стоит другой вопрос. А именно: как подделать tiktok сигнатуру?
Но этот вопрос не относится к данной теме, а потому (и не только) считаю эту тему закрытой. Спасибо всем, кто помогал.

Answer 2 · 2020-01-30 01:25:16

R4ndolphC4rter интересно что такое tiktok делает в браузере чего не делает селениум -

window.addEventListener('load', function() {
                            navigator.serviceWorker.register('/sw.js');
                        });

удачи

Кстати R4ndolphC4rter через джаву с Selenium 3.14, оч. старый FF - 40 - видео грузится и работает вообще сразу без всякого тюнинга:

Video link selected: https://www.tiktok.com/@egorkreed/video/678***************5
Video link selected: https://www.tiktok.com/@egorkreed/video/678***************7
Video link selected: https://www.tiktok.com/@egorkreed/video/678***************4
...

а с Chrom - ом - нет (та же ситуация что через питон)

Как с помощью Selenium правильно спарсить данные сайта, подгружаемые динамически?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт