Интересный вопрос знатокам парсинга, парсили ли вы гугл тревел?

Question

SmileRex @SmileRex

Интересный вопрос знатокам парсинга, парсили ли вы гугл тревел?

Значит задача: спарсить сайты отелей из списка гугл тревел по назвнию города.

Для перехода по страницам сайта используется кнопка "Далее" которая дёргает js скрипт который возвращает следующую страницу, кнопка не содержит информацию или ссылку для перехода на следующую страницу,

Так вот вопрос, правильно ли я поступил использую вебдрайвер в handless режиме для перехода по всем страницам и сборки current_url или же я что то не понимаю?

Вопрос задан более двух лет назад
143 просмотра

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Яндекс Практикум

Автоматизатор тестирования на Java

5 месяцев

Далее
Skillbox

Профессия Инженер по тестированию

10 месяцев

Далее

Решения вопроса 1

5 комментариев

SmileRex @SmileRex Автор вопроса

Да, задачу решил таким образом, клик по кнопке, получаю ссылку, парсю адреса и так далее до конца страницы.

Хотелось бы знать, есть ли способ обойтись без использования selenium для данной задачи ?

Написано более двух лет назад
rPman @rPman

да, один я указал - всю или большую часть роботы проводи в браузере на javscript, который инжекти с помощью того же tempermonkey, браузер буквально запускай как обычно, открывай ссылки и все само дальше

Еще есть вариант (если сайт не против) использовать самописный браузер на готовом движке (например webkit) под любой язык программирования, кода мало, этот способ что то между инжектом кода на страницу и selenium.

Например когда еще работал IE я пользовался штатным компонентом WebBrowser в .net, 2 шевеления мышки в Visdual Studio и браузер готов, из кода на c# полный доступ к dom страницы (некоторые вещи придется делать запуском javаscript, например вызов функций сайта в контексте этого сайта), это все еще работает, если сайты не следят с каких браузеров к ним зашли, но самое главное если собрать приложение под mono то компонент IE подменяется на firefox

Написано более двух лет назад
SmileRex @SmileRex Автор вопроса

Очень интересно замечание и элегантное решение, благодарю за обратную связь, побежал писать тест классы для данной реализации и знакомится с селекторами, дай бог тебе здоровья, живи долго и процветай!

Написано более двух лет назад
rPman @rPman
Иногда бывает для доступа к элементу требуется несколько итераций, например если dom элемент не имеет четкого идентификатора (например элементы списков/таблиц), ищут верхнеуровневый контейнер, и уже к этому элементу делают querySelector или querySelectorAll

Еще подход, когда владелец сайта постоянно переименовывает наименования классов или даже меняет структуру (прямой поиск по селектору не работает) есть лайфхак, перебирай элементы на странице, запрашивая их видимый прямоугольник getBoundingClientRect(), откидывай все с нулевыми размерами (они невидимые), и строй карту относительного положения элементов, тогда сможешь делать поиск вида - элемент справа от элемента, текст которого содержит 'Бла бла бла'.

upd. мир никогда не станет прежним, тупо скопировал свой текст и получил готовый код
bing chatgpt
осторожно, код не проверял но основная идея понята верно! на вскидку есть ряд мелких ошибок типа определения невидимого элемента нужно ставить ||
function buildMap() { let elements = document.querySelectorAll('*'); let map = {}; for (let element of elements) { let rect = element.getBoundingClientRect(); if (rect.width === 0 && rect.height === 0) continue; let text = element.textContent.trim(); if (!text) continue; map[text] = {rect: rect, element: element}; } return map; } function findElement(map, referenceText, position) { let reference = map[referenceText]; if (!reference) return null; for (let text in map) { if (text === referenceText) continue; let rect = map[text].rect; switch(position) { case 'right': if (rect.left >= reference.rect.right) return map[text].element; break; // добавьте другие позиции здесь } } return null; } let map = buildMap(); let element = findElement(map, 'Бла бла бла', 'right');
Написано более двух лет назад
SmileRex @SmileRex Автор вопроса

rPman, это действительно начинает пугать )

Написано более двух лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 285 просмотров
2

ответа
Discord

+2 ещё

Средний
Hcaptcha Discord как вызвать кол бек?
- 2 подписчика
- 23 авг.
- 113 просмотров
0

ответов
Python

+1 ещё

Простой
Из-за чего возникает ошибка неверный дескриптор?
- 1 подписчик
- 19 авг.
- 157 просмотров
1

ответ
Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг.
- 86 просмотров
1

ответ
Парсинг

+1 ещё

Простой
Ошибка в коде парсера Ozon, что не так?
- 1 подписчик
- 26 июл.
- 272 просмотра
0

ответов
Парсинг

+4 ещё

Простой
Как отловить фрейм с капчей?
- 1 подписчик
- 02 июл.
- 174 просмотра
0

ответов
Python

+2 ещё

Простой
Почему происходит Блокировка доступа при использовании Selenium для парсинга?
- 2 подписчика
- 16 июн.
- 338 просмотров
3

ответа
Linux

+2 ещё

Средний
Как пробросить локальный порт через SOCKS5 с логином/паролем для Selenium?
- 1 подписчик
- 10 июн.
- 162 просмотра
1

ответ
VPN

+2 ещё

Средний
Возможно ли автоматизировать подключения к Big Blue Button?
- 1 подписчик
- 21 апр.
- 216 просмотров
1

ответ
Python

+2 ещё

Простой
Как парсить динамическую таблицу с помощью selenium?
- 2 подписчика
- 09 апр.
- 208 просмотров
0

ответов
Показать ещё Загружается…

Инженер по автоматизации тестирования (AQA Java)

DCloud

До 250 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Старший инженер

Гринатом • Петрозаводск

До 80 000 ₽

Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента. Также обратите внимание на п.3.4

Answer 1 · 2023-05-16 08:28:47

да
два противоположных метода решения задачи парсинга и автоматизации веб приложений:
1. реверсинженеринг кода веб приложения, выявление структуры и порядок вызова запросов к серверу, и их вызов
- много сил на реверсинженеринг, сложная поддержка
+ требует мало ресурсов для работы (считанные килобайты ram, т.е. можно запустить 100500 ботов)
2. запуск браузера или его симулятора и симуляция действий пользователя
+ почти не требует сил на реверсинженеринг, все доступно прямо из браузера и его developer console, простая поддержка
- требует много ресурсов для работы (сотни мегабайт ram на запуск одного инстанса и нагружает cpu)
все остальные методы находятся между этими двумя противоположными.

чтобы кликнуть на кнопку во втором методе требуется 15 секунд на выявление css selector нужного элемента и написание кода document.querySelector('...').click() (это не selenium, а инжект javascript кода на страницу с помощью tempermonkey), да понадобится еще чуть чуть кода на организацию порядка действий, проверку страницы по наличию элементов (например выявить конец пагинации) но это все несоизмеримо проще чем реверсить код сайта чтобы понять как получить куку авторизации из обфусцированного кода (когда владельцы сайтов защищаются от этого) и вычисление таймингов и порядок загрузки элементов страниц (которых может быть несколько) чтобы добраться до нужной... да конечно не все так защищаются, а многие даже с javascript не заморачиваются и фигачат сайты по старинке с server generated страницами, там тогда все тоже не сложно, но для понимания этого исследование провести придется.

Интересный вопрос знатокам парсинга, парсили ли вы гугл тревел?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт