Задать вопрос

Парсим/грабим веб-страницы без мусора?

В последнее время появилось много сервисов отложенного чтения, которые "грабят" контент сайтов прямо со страницы (не из фидов), красиво очищая все лишнее и оставляя только размеченный текст без всяких спанов, размеров шрифтов и прочего, да картинки. Например https://getpocket.com/

Вопрос. Встречал ли кто-то в открытом доступе скрипты, с помощью которых можно такое делать и прикрутить к собственному проекту, чтобы можно было и себе "засасывать" страницы? ;)
  • Вопрос задан
  • 8177 просмотров
Подписаться 63 Сложный Комментировать
Ответ пользователя Mikhail S К ответам на вопрос (9)
@sokolov86
Ответ написан
Комментировать