Есть ли решение(расширение, сервис) для сбора(парсинга) новостей из HTML, хранение, и отображение?

Question

Karen Kratyan @kratkar

web-developer

Парсинг

Есть ли решение(расширение, сервис) для сбора(парсинга) новостей из HTML, хранение, и отображение?

Нужно получать данные из HTML(а не из RSS) со страниц, хранить и отображать с сортировкой... В основном встречаются парсинг с экспортом в какой-то формат. А нужно получить данные из HTML(текст, ссылку, дату и тд), хранить, отображать.

Upd.
Нужно что-то похожее на RSS ридер, но которая работала бы с HTML(задал селекторы/xpath названия, урла, изображения, даты, описания для каждого ресурса итд), парсил и записывал бы в базу эти данные(ну вывод опционально).

Вопрос задан более трёх лет назад
321 просмотр

6 комментариев

Подписаться 6 Простой 6 комментариев

Юрий @riky

тоже иногда о таком подумываю.
какие возможности вы бы хотели? какие источники парсинга и какие данные?

Написано более трёх лет назад
Karen Kratyan @kratkar Автор вопроса

Юрий, Добавил ссылку, где источники данных(список новостей, например), указал данные(по xpath, select query) для полей, формат данных(дата, число, строка), можно пост обработку добавить. Запись в БД. Вывод данных по шаблону или через шаблонизатор вручную. Вообще, думал найти расширение(апп) для браузера, но что-то только экспорт в csv, json итд.

Написано более трёх лет назад
Юрий @riky

Karen Kratyan, просто если нужно собирать со страниц с пагинацией типа форумов - то надо чтобы скрипт умел нужные стр находить (напр последнюю), а не просто ссылка.
иногда нужна авторизация, напр соц сети. (плагину в браузере может быть проще в этом плане).
сайты типа ютюба вообще в html мало что можно найти, там все ajax догружается. нужно или в исходниках сайта разбираться или эмуляцию браузера делать.

я так понимаю вам не просто новости с сайтов надо? потому что зачастую для этого достаточно RSS (формат хоть и не выстрелил но многие CMS его автоматически формируют).
вам нужны какие то сложные структурированные обьекты с сайтов? типа появление товара в инет магазине?

Написано более трёх лет назад
Юрий @riky

Karen Kratyan, отдельный вопрос там кстати определение новых сущностей. самое простое - сохранять предыдущий список и сранивать все поля с новым. но некоторые поля могут обновляться.

поэтому просто экспрорт сделать проще. а тут очень много настроек всяких надо чтобы получился гибкий инструмент.

Написано более трёх лет назад
Karen Kratyan @kratkar Автор вопроса

Юрий, Нет. Просто список новостей, статьей. RSS мёртв уже давно. Остаётся HTML. Вот оттуда и нужно брать название, ссылку, дату и описание(если есть). Авторизация и тд - это уже лишнее. С открытых источников.

Написано более трёх лет назад
Karen Kratyan @kratkar Автор вопроса

Дополню. Нужно что-то похожее на RSS ридер, но которая работала бы с HTML(задал селекторы/xpath названия, урла, изображения, даты, описания для каждого ресурса итд), парсил и записывал бы в базу эти данные(ну вывод опционально).

Написано более трёх лет назад

Решения вопроса 1

9 комментариев

Zettabyte @Zettabyte

mozilla/readability
альтернативных реализаций этого алгоритма на других языках

Спасибо!
Описание в целом и возможности реализации на PHP выглядят очень круто.

На питоне вроде тоже есть, но не успеваю посмотреть.

Я не автор вопроса, но жмякнул "Отметить решением".

Написано более трёх лет назад
Karen Kratyan @kratkar Автор вопроса

Спасибо! Я искал готовое решение по типу RSS ридера, но которая работала бы с HTML(задал, селекторы/xpath названия, урла, изображения, даты, описания для каждого ресурса итд), парсил и записывал бы в базу эти данные(ну вывод опционально). Получается самому надо писать. Но для этого jsdom достаточно, думаю. А смысл использовать readability? Для более сложных задач получается...

Написано более трёх лет назад
ValdikSS @ValdikSS

Karen Kratyan, https://rss.app/ и другие подобные генераторы RSS из обычных HTML-страниц, а читайте их ридером.

У https://politepol.com/ru/ открыты исходники: https://github.com/taroved/pol
Также см. https://github.com/GChristensen/feedxcavator2

Написано более трёх лет назад
ValdikSS @ValdikSS

Karen Kratyan, Для некоторых конкретных сайтов есть https://github.com/RSS-Bridge/rss-bridge
Отредактировал сообщение выше, посмотрите.

Написано более трёх лет назад
Karen Kratyan @kratkar Автор вопроса

ValdikSS, Мне не нужен генератор RSS из HTML. Мне нужен парсер, который бы брал новости из HTML. Пока остановился на osmosis. Спасибо

Написано более трёх лет назад
ValdikSS @ValdikSS

Karen Kratyan, RSS уже стандартизирован, зачем его парсить? Вы что-то нестандартное под этим подразумеваете? Какой результат вы хотите получить?

Написано более трёх лет назад
Karen Kratyan @kratkar Автор вопроса

ValdikSS, Есть много ресурсов(сайты с новостями, например). Но RSS нет(потому что он почти мёртв). Нужно решение, которое бы парсила эти новости из HTML и складывала всё в одно место(в базу) по заданному правилу(по заданным селекторам/xpath-ам)
Upd. В пред коменте RSS -> HTML. Перепутал, исправил. Запутал этой ошибкой наверно)

Написано более трёх лет назад
ValdikSS @ValdikSS

Karen Kratyan, ПО по моим ссылкам генерирует стандартизированный RSS из HTML, т.е. парсит страницу, находит на ней новости, опредеяет заголовок и тело, и создаёт из этого syndication.
Библиотека парсера HTML в заголовок, тело, краткое содержание, автора новости — readability.
Складывать в базу можно любой программой для чтения RSS.

Написано более трёх лет назад
Karen Kratyan @kratkar Автор вопроса

Невнимальность) Спасибо. Попробую.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

6 комментариев

Karen Kratyan @kratkar Автор вопроса

Ресурсов много. Какое-то готовое решение, чтобы сделать быстро.

Написано более трёх лет назад
АртемЪ @Jump

Karen Kratyan, Готовое решение под какой ресурс?
Для каждого ресурса - нужно свое решение.

Под такие востребованные ресурсы как авито - решения есть.
А остальные - самому писать, или заказывать.

Написано более трёх лет назад
Karen Kratyan @kratkar Автор вопроса

АртемЪ, для разных новостных страниц. Выше описал. Нужно по типу RSS ридера, но чтоб работала с HTML.

Написано более трёх лет назад
АртемЪ @Jump

Karen Kratyan, RSS это как раз специальный формат, для того чтобы парсить не приходилось. Подписывайся и все.
А html страницы они совершенно разные по структуре. В каждом конкретном случае нужно указывать какие именно данные вы структуре страницы вам нужны и как их вытащить.

Написано более трёх лет назад
Karen Kratyan @kratkar Автор вопроса

АртемЪ, Ну, нету у большинства этих сайтов RSS. Потому что он почти мёртв(моё сугубое мнение)

Написано более трёх лет назад
АртемЪ @Jump

Karen Kratyan, Ну конечно, RSS коньки отбросил уже давно. Крайне редко кто-то им пользуется.
Поэтому в вашем случае надо парсить. Пишите парсер и в путь.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 95 просмотров
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 203 просмотра
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 188 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 189 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 230 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 125 просмотров
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 212 просмотров
3

ответа
Парсинг

Средний
Как отслеживать парсеров?
- 4 подписчика
- 30 авг.
- 556 просмотров
2

ответа
Python

+2 ещё

Простой
Как анти-бот системы определяют ботов и как от них защищаться?
- 2 подписчика
- 13 авг.
- 361 просмотр
1

ответ
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 201 просмотр
0

ответов
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Москва

До 370 000 ₽

DevOps / Python-разработчик

ЛСЦТ • Москва

от 280 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

тоже иногда о таком подумываю.
какие возможности вы бы хотели? какие источники парсинга и какие данные?
Юрий, Добавил ссылку, где источники данных(список новостей, например), указал данные(по xpath, select query) для полей, формат данных(дата, число, строка), можно пост обработку добавить. Запись в БД. Вывод данных по шаблону или через шаблонизатор вручную. Вообще, думал найти расширение(апп) для браузера, но что-то только экспорт в csv, json итд.
Karen Kratyan, просто если нужно собирать со страниц с пагинацией типа форумов - то надо чтобы скрипт умел нужные стр находить (напр последнюю), а не просто ссылка.
иногда нужна авторизация, напр соц сети. (плагину в браузере может быть проще в этом плане).
сайты типа ютюба вообще в html мало что можно найти, там все ajax догружается. нужно или в исходниках сайта разбираться или эмуляцию браузера делать.

я так понимаю вам не просто новости с сайтов надо? потому что зачастую для этого достаточно RSS (формат хоть и не выстрелил но многие CMS его автоматически формируют).
вам нужны какие то сложные структурированные обьекты с сайтов? типа появление товара в инет магазине?
Karen Kratyan, отдельный вопрос там кстати определение новых сущностей. самое простое - сохранять предыдущий список и сранивать все поля с новым. но некоторые поля могут обновляться.

поэтому просто экспрорт сделать проще. а тут очень много настроек всяких надо чтобы получился гибкий инструмент.
Юрий, Нет. Просто список новостей, статьей. RSS мёртв уже давно. Остаётся HTML. Вот оттуда и нужно брать название, ссылку, дату и описание(если есть). Авторизация и тд - это уже лишнее. С открытых источников.
Дополню. Нужно что-то похожее на RSS ридер, но которая работала бы с HTML(задал селекторы/xpath названия, урла, изображения, даты, описания для каждого ресурса итд), парсил и записывал бы в базу эти данные(ну вывод опционально).

Answer 1 · 2021-08-23 02:23:54

https://github.com/mozilla/readability

Есть множество альтернативных реализаций этого алгоритма на других языках.

Answer 2 · 2021-08-20 10:58:51

Что значит сервис?
Чтобы что-то парсить нужно написать парсер под конкретный ресурс.

Под некоторые ресурсы есть парсеры - и владельцы этих парсеров продают собираемую ими информацию.

Есть ли решение(расширение, сервис) для сбора(парсинга) новостей из HTML, хранение, и отображение?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт