@albertalexandrov

Как извлечь текст статьи из html-страницы?

Привет!

Есть новостные сайты, блоги и т.д., страницы которых содержат статьи. Но помимо текстов статей страницы содержат также комментарии, рекламу, навигацию и проч. Стоит задача извлекать из страниц новостных сайтов, блогов и проч. только тексты статей. Поскольку источники разные, то и html-разметка у всех разная. То есть нужно реализовать что-то вроде режима чтения.
  • Вопрос задан
  • 720 просмотров
Пригласить эксперта
Ответы на вопрос 2
Берем bs4 и пишем парсер под каждый сайт
Ответ написан
Комментировать
@Doc44
Если есть микроразметка на сайте - легко.
Если нет - индивидуально под каждый сайт.
Или попытаться догадаться автоматически, но там качество будет хуже намного.
Или выводить запрос пользователю.

См. как работает этот парзер https://evernote.com/intl/ru/products/webclipper
Иногда он догадывается, иногда он промахивается, но предлагает несколько вариантов. С возможностью ручной коррекции в некоторых случаях.
Разработчики его сделавшие - довольно таки высокооплачиваемые ребята.
Evernote оценивается в миллиард долларов и заметки - их основной сервис.
Так что будьте уверены - парзер сделан хорошо.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы