devspec
@devspec
Помогло? Отметь решением

Как извлечь полезный контент из любой html-страницы?

Здравствуйте!

Заинтересовал вопрос, обозначенный в заголовке. Просмотрел достаточно много информации, но окончательного решения для себя не нашел. Подскажите, какие методы извлечения полезного контента из веб-страниц нынче актуальны? Интересуют библиотеки или методы для любого ЯП или платформы, а не веб-сервисы типа diffbot.com (который, к слову, очень хорош, но дорог в использовании).

P.S. Как скачать и разобрать страницу на DOM-объекты - я знаю. Но что делать, если страниц 10000 и везде разная верстка? Для каждой определять правила "где полезный контент, а где нет"? Существуют готовые решения вроде Goose или NReadability, которые в целом неплохи, но хотелось бы последние тенденции выяснить.

Спасибо.
  • Вопрос задан
  • 533 просмотра
Пригласить эксперта
Ответы на вопрос 2
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы