viktorvsk
@viktorvsk

Удобен ли был бы декларативный метод парсинга?

Был бы кому-то удобен инструмент, с помощью которого можно было бы, например, спарсить определенные страницы с хабра, включая внутренний контент, используя такие входны данные:
{
  "__url__": "'http://habrahabr.ru/page{{1,1,5}}/'",
  "posts": {
    "__iterator__": ".post",
    "name": "{{.post_title}}",
    "content": {
      "__follow__": "{{.post_title | first | attr_href}}",
      "post_body": "{{.content}}",
      "author": "{{.author > a}}",
      "comments": "{{#comments}}"
    }
  }
}


А на выходе получить что-то вроде: pastie.org/9799295
Искал подобные инструменты, не нашел. Самое близкое по смыслу - это, как я понимаю, XSLT шаблоны.
И все ли очевидно во входных параметрах? css\xpath селекторы, пейджинг, применение фильтров к полученному результату.

Если действительно кажется полезным, напишите, пожалуйста, это ускорит запуск гема, написание документации и запуск тестового сервиса
  • Вопрос задан
  • 2369 просмотров
Пригласить эксперта
Ответы на вопрос 2
gbg
@gbg
Любые ответы на любые вопросы
Самый клевый синтаксис автоматического доступа к странице был бы sql-образным.
Ответ написан
laska
@laska
PHP/JS разработчик
Многие сайты много чего генерируют с помощью js.
Если ваш гем будет анализировать не тупо исходный код страницы, а именно лазить по полностью сгененрированному дом-дереву, это будет очень круто.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы