kratkar
@kratkar
web-developer

Есть ли решение(расширение, сервис) для сбора(парсинга) новостей из HTML, хранение, и отображение?

Нужно получать данные из HTML(а не из RSS) со страниц, хранить и отображать с сортировкой... В основном встречаются парсинг с экспортом в какой-то формат. А нужно получить данные из HTML(текст, ссылку, дату и тд), хранить, отображать.

Upd.
Нужно что-то похожее на RSS ридер, но которая работала бы с HTML(задал селекторы/xpath названия, урла, изображения, даты, описания для каждого ресурса итд), парсил и записывал бы в базу эти данные(ну вывод опционально).
  • Вопрос задан
  • 300 просмотров
Решения вопроса 1
ValdikSS
@ValdikSS
https://github.com/mozilla/readability

Есть множество альтернативных реализаций этого алгоритма на других языках.
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
Jump
@Jump
Системный администратор со стажем.
Что значит сервис?
Чтобы что-то парсить нужно написать парсер под конкретный ресурс.

Под некоторые ресурсы есть парсеры - и владельцы этих парсеров продают собираемую ими информацию.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы