Как автоматически вычленить текст новости

Можно ли написать программу чтобы по веб-странице с новостью она автоматически определяла где эта новость, и, собственно, грабила ее в текст.

Понятно что точность будет не 100%. В принципе, этим кто-то занимался?
  • Вопрос задан
  • 3310 просмотров
Пригласить эксперта
Ответы на вопрос 2
ValdikSS
@ValdikSS
Есть такая штука — Readability, и у нее есть API.
Ответ написан
@Resager
Тэг «искусственный интеллект» порадовал. Привел бы пример какие новости, с какого сайта. Можно создать для каждого сайта набор регулярок (набери в гугле «Регулярные выражения») и вытаскивать из HTML. А вообще ещё существуют RSS.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы