Как правильно реализовать парсер новостных сайтов с Яндекс Новостей?

Как правильно реализовать парсер новостных сайтов с Яндекс Новостей? Нужно получить чистый заголовок (без seo прибамбасов, можно смотреть на значение тега ), и чистый текст (не брать текст из футера и т. д, только текст статьи).

Задача была бы проста, если бы сайт был всего один. А сайтов будет много, нужно придумаaть какое-то универсальное решение. Если бы сайт был один, то я бы расставил ключевые точки копирования и все (например, я бы знал что текст статьи находится в div'е #blablabla). А заголовок можно получить легко - у всех сайтов на Я.Новостях есть h1. Так вот - как получить чистый текст статьи, не зная, с какого сайта копируется контент? Или придется писать под каждый сайт отдельный парсер?
  • Вопрос задан
  • 1418 просмотров
Пригласить эксперта
Ответы на вопрос 2
@IceJOKER
Web/Android developer
trevoga_su
@trevoga_su
1. Воровать - плохо. И так уже все загадили своим копипастом
2. Универсального способа нет.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы