Есть ли решение(расширение, сервис) для сбора(парсинга) новостей из HTML, хранение, и отображение?
Нужно получать данные из HTML(а не из RSS) со страниц, хранить и отображать с сортировкой... В основном встречаются парсинг с экспортом в какой-то формат. А нужно получить данные из HTML(текст, ссылку, дату и тд), хранить, отображать.
Upd.
Нужно что-то похожее на RSS ридер, но которая работала бы с HTML(задал селекторы/xpath названия, урла, изображения, даты, описания для каждого ресурса итд), парсил и записывал бы в базу эти данные(ну вывод опционально).
Юрий, Добавил ссылку, где источники данных(список новостей, например), указал данные(по xpath, select query) для полей, формат данных(дата, число, строка), можно пост обработку добавить. Запись в БД. Вывод данных по шаблону или через шаблонизатор вручную. Вообще, думал найти расширение(апп) для браузера, но что-то только экспорт в csv, json итд.
Karen Kratyan, просто если нужно собирать со страниц с пагинацией типа форумов - то надо чтобы скрипт умел нужные стр находить (напр последнюю), а не просто ссылка.
иногда нужна авторизация, напр соц сети. (плагину в браузере может быть проще в этом плане).
сайты типа ютюба вообще в html мало что можно найти, там все ajax догружается. нужно или в исходниках сайта разбираться или эмуляцию браузера делать.
я так понимаю вам не просто новости с сайтов надо? потому что зачастую для этого достаточно RSS (формат хоть и не выстрелил но многие CMS его автоматически формируют).
вам нужны какие то сложные структурированные обьекты с сайтов? типа появление товара в инет магазине?
Karen Kratyan, отдельный вопрос там кстати определение новых сущностей. самое простое - сохранять предыдущий список и сранивать все поля с новым. но некоторые поля могут обновляться.
поэтому просто экспрорт сделать проще. а тут очень много настроек всяких надо чтобы получился гибкий инструмент.
Юрий, Нет. Просто список новостей, статьей. RSS мёртв уже давно. Остаётся HTML. Вот оттуда и нужно брать название, ссылку, дату и описание(если есть). Авторизация и тд - это уже лишнее. С открытых источников.
Дополню. Нужно что-то похожее на RSS ридер, но которая работала бы с HTML(задал селекторы/xpath названия, урла, изображения, даты, описания для каждого ресурса итд), парсил и записывал бы в базу эти данные(ну вывод опционально).
Спасибо! Я искал готовое решение по типу RSS ридера, но которая работала бы с HTML(задал, селекторы/xpath названия, урла, изображения, даты, описания для каждого ресурса итд), парсил и записывал бы в базу эти данные(ну вывод опционально). Получается самому надо писать. Но для этого jsdom достаточно, думаю. А смысл использовать readability? Для более сложных задач получается...
ValdikSS, Есть много ресурсов(сайты с новостями, например). Но RSS нет(потому что он почти мёртв). Нужно решение, которое бы парсила эти новости из HTML и складывала всё в одно место(в базу) по заданному правилу(по заданным селекторам/xpath-ам)
Upd. В пред коменте RSS -> HTML. Перепутал, исправил. Запутал этой ошибкой наверно)
Karen Kratyan, ПО по моим ссылкам генерирует стандартизированный RSS из HTML, т.е. парсит страницу, находит на ней новости, опредеяет заголовок и тело, и создаёт из этого syndication.
Библиотека парсера HTML в заголовок, тело, краткое содержание, автора новости — readability.
Складывать в базу можно любой программой для чтения RSS.
Karen Kratyan, RSS это как раз специальный формат, для того чтобы парсить не приходилось. Подписывайся и все.
А html страницы они совершенно разные по структуре. В каждом конкретном случае нужно указывать какие именно данные вы структуре страницы вам нужны и как их вытащить.
Karen Kratyan, Ну конечно, RSS коньки отбросил уже давно. Крайне редко кто-то им пользуется.
Поэтому в вашем случае надо парсить. Пишите парсер и в путь.