Тэг «искусственный интеллект» порадовал. Привел бы пример какие новости, с какого сайта. Можно создать для каждого сайта набор регулярок (набери в гугле «Регулярные выражения») и вытаскивать из HTML. А вообще ещё существуют RSS.
Это я в курсе. Регулярками я правда не пользуюсь, пользуюсь Python+LXML — все вытаскивается и работает. Где RSS есть там еще проще, да. Я имею в виду как раз решение с искусственным интеллектом. Чтобы не писать каждый раз регулярки или XPath-пути.