Про HTML-парсинг есть что нового?

Question

codecity @codecity

Про HTML-парсинг есть что нового?

Как сейчас обстоят дела с HTML-парсингом? Смотрю для автоматизации запросов набрал популярность Selenium WebDriver. С помощью плагина для FF последовательность запросов можно генерить автоматом.

А вот с парсингом сложнее -- xPath выражения нужно писать вручную. К примеру, если хочется сохранить таблицу с постраничной разбивкой -- уже не так просто.

Вроде встречал более удобные инструменты с визальной конфигурацией. Выбираешь нужный элемент а прога генерить xPath сама. Но сейчас ничего найти не могу.

Кто может порекомендовать?

Вопрос задан более трёх лет назад
1290 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Stepik

Основы HTML и CSS

2 недели

Далее
Бруноям

Вёрстка на HTML и CSS

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+2 ещё

Средний
Как можно реализовать что то вроде селекта внутри родителя у которого есть скрытые элементы и должна быть горизонтальная прокрутка?
- 2 подписчика
- 11 дек.
- 169 просмотров
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 400 просмотров
2

ответа
JavaScript

+2 ещё

Простой
Как сделать резкое переключение слайдов?
- 1 подписчик
- 03 дек.
- 185 просмотров
0

ответов
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 290 просмотров
1

ответ
HTML

+1 ещё

Средний
В какую сторону копать решение чтобы решить проблему с наложением?
- 1 подписчик
- 22 нояб.
- 145 просмотров
0

ответов
HTML

+1 ещё

Простой
Как растянуть вложенный блок внутри других блоков на максимальную длину, но не более чем на ширину страницы?
- 1 подписчик
- 21 нояб.
- 148 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 610 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 414 просмотров
2

ответа
HTML

+1 ещё

Простой
Как реализовать форму ввода как в веб-версии chatGPT?
- 3 подписчика
- 13 нояб.
- 241 просмотр
0

ответов
JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 290 просмотров
1

ответ
Показать ещё Загружается…

WordPress (PHP, HTML/CSS) разработчик

Epiic

от 90 000 ₽

Frontend-разработчик (Vanilla JS, high-load media platform)

Karma8

от 200 000 до 300 000 ₽

Frontend разработчик React / Next.js

PurpleSchool

До 65 000 ₽

Answer 1 · 2016-02-07 03:38:22

xPath выражения нужно писать вручную

Css селекторы легче
Для php https://github.com/olamedia/nokogiri
Для прочих языков нагуглить аналоги тоже не проблема.

Answer 2 · 2016-02-07 03:57:24

> Смотрю для автоматизации запросов набрал популярность Selenium WebDriver.
Мне больше PhantomJS нравится.
А еще вариант с голыми HTTP-запросами, когда берут сниффер вроде Fiddler, отслеживают запросы и затем на ЯП их имитируют. Под виндой обычно для этого берут C#.
Это требует больших усилий в плане устойчивости к распознаванию бота серваком, и может быть не столь стабильно к изменениям на серваке, зато быстродействие + не надо ничего левого на комп ставить + запросы можно делать из любого привычного ЯП без костылей.

Не нужно пытаться все слишком упростить.
Во многих отраслях есть 2 возможности. Можно быть спецом, знать все изнутри, применять средства разных уровней. А можно только уметь тыкать кнопочки, записывать макросы и т.д., т.е. только уметь пользоваться готовыми сверхвысокоуровневыми средствами.
Так вот, со вторым подходом далеко не уедешь.
Это ни в коей мере не означает, что спец всегда все делает по хардкору, пишет на асме и т.д. Реальные спецы тоже любят удобство, качество, абстракцию и т.д. И ведь если нужного простого сверхвысокоуровневого средства просто не существует под его задачи, то как раз спец может сам его написать (как говорят, "дай человеку необходимое - он захочет комфорта"), а что тогда сделает дилетант, нахватавшийся вершков и умеющий только готовым пользоваться? Ничего.

> А вот с парсингом сложнее -- xPath выражения нужно писать вручную
Вы вообще о чем?
Откуда вы хотите парсить HTML?
Не знаю, как Selenium, но из бота на PhantomJS доступны все возможности JavaScriptовского DOM API.
А для C# есть хорошая библиотека AngleSharp, для парсинга HTML и CSS, где есть не только GetElementById, но и по классу, по тэгу, по CSS-селекторам и вообще вроде все то же, что и в стандарте DOM. Правда, работает медленнее, чем привычный HtmlAgilityPack (в котором все кроме GetElementById делается XPath'ами)

Про HTML-парсинг есть что нового?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт