Как правильно реализовать парсер новостных сайтов с Яндекс Новостей?
Как правильно реализовать парсер новостных сайтов с Яндекс Новостей? Нужно получить чистый заголовок (без seo прибамбасов, можно смотреть на значение тега ), и чистый текст (не брать текст из футера и т. д, только текст статьи).
Задача была бы проста, если бы сайт был всего один. А сайтов будет много, нужно придумаaть какое-то универсальное решение. Если бы сайт был один, то я бы расставил ключевые точки копирования и все (например, я бы знал что текст статьи находится в div'е #blablabla). А заголовок можно получить легко - у всех сайтов на Я.Новостях есть h1. Так вот - как получить чистый текст статьи, не зная, с какого сайта копируется контент? Или придется писать под каждый сайт отдельный парсер?
Kuti: другого универсального способа нет. многие рсс показывают полный текст в теге yandex:description (или как-то так, с названии присутствует Yandex)