Удобен ли был бы декларативный метод парсинга?

Question

Viktor Vsk @viktorvsk

Парсинг

Удобен ли был бы декларативный метод парсинга?

Был бы кому-то удобен инструмент, с помощью которого можно было бы, например, спарсить определенные страницы с хабра, включая внутренний контент, используя такие входны данные:

{
  "__url__": "'http://habrahabr.ru/page{{1,1,5}}/'",
  "posts": {
    "__iterator__": ".post",
    "name": "{{.post_title}}",
    "content": {
      "__follow__": "{{.post_title | first | attr_href}}",
      "post_body": "{{.content}}",
      "author": "{{.author > a}}",
      "comments": "{{#comments}}"
    }
  }
}

А на выходе получить что-то вроде: pastie.org/9799295
Искал подобные инструменты, не нашел. Самое близкое по смыслу - это, как я понимаю, XSLT шаблоны.
И все ли очевидно во входных параметрах? css\xpath селекторы, пейджинг, применение фильтров к полученному результату.

Если действительно кажется полезным, напишите, пожалуйста, это ускорит запуск гема, написание документации и запуск тестового сервиса

Вопрос задан более трёх лет назад
2372 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Stepik

Парсинг на Python для начинающих

2 недели

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 234 просмотра
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 483 просмотра
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 380 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 194 просмотра
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 267 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 206 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 208 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 304 просмотра
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 141 просмотр
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 232 просмотра
3

ответа
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Екатеринбург

от 127 500 ₽

Разработчик JavaScript/NodeJS, специалист технической поддержки

A-Parser

от 600 до 800 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Answer 1 · 2014-12-26 14:24:03

Армянское Радио @gbg

Любые ответы на любые вопросы

Самый клевый синтаксис автоматического доступа к странице был бы sql-образным.

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2014-12-26 15:41:38

Многие сайты много чего генерируют с помощью js.
Если ваш гем будет анализировать не тупо исходный код страницы, а именно лазить по полностью сгененрированному дом-дереву, это будет очень круто.

Удобен ли был бы декларативный метод парсинга?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт