Парсим/грабим веб-страницы без мусора?

Question

Mixa @Mixa

Парсим/грабим веб-страницы без мусора?

В последнее время появилось много сервисов отложенного чтения, которые "грабят" контент сайтов прямо со страницы (не из фидов), красиво очищая все лишнее и оставляя только размеченный текст без всяких спанов, размеров шрифтов и прочего, да картинки. Например https://getpocket.com/

Вопрос. Встречал ли кто-то в открытом доступе скрипты, с помощью которых можно такое делать и прикрутить к собственному проекту, чтобы можно было и себе "засасывать" страницы? ;)

Вопрос задан более трёх лет назад
8213 просмотров

Комментировать

Подписаться 63 Сложный Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Skillbox

Веб-вёрстка 3.0

3 месяца

Далее
OTUS

HTML/CSS

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 9

Комментировать

15 комментариев

ThunderCat @ThunderCat Куратор тега HTML

ради интереса зашел на главную тостера, много хихикал )

Написано более трёх лет назад
xmoonlight @xmoonlight
ThunderCat:
<div class="column_main"> <main class="page">
Написано более трёх лет назад
ThunderCat @ThunderCat Куратор тега HTML

xmoonlight: особенно H и длинным текстом, как раз на баннер попадаем )

Написано более трёх лет назад
xmoonlight @xmoonlight

ThunderCat: body-контейнер должен быть очищен от не контейнерных тегов))))

Написано более трёх лет назад
ThunderCat @ThunderCat Куратор тега HTML

xmoonlight: Плавали- знаем ) А еще есть рекламные посты, с пометкой, но под все критерии подходящие. То есть фильтр пишем ручками )

Написано более трёх лет назад
xmoonlight @xmoonlight

ThunderCat:
1. На одной странице - ищем строго 1 пост/статью. Если 2 или более - то это легко детектируется.
2. Рекламный он или нет - да они все рекламные) так что это не важно) главное - что такой пост - ОДИН, а не блог-лист.

Написано более трёх лет назад
xmoonlight @xmoonlight

ThunderCat: я поправил ответ! Спасибо за замечания!

Написано более трёх лет назад
ThunderCat @ThunderCat Куратор тега HTML

xmoonlight: кста, я вот в тексте фиганул тег span с другим шрифтом в теге p, а в нем сделал наклонный текст, не видать мне новости в граббере?

Написано более трёх лет назад
xmoonlight @xmoonlight

ThunderCat: эти теги будут удалены. (все не контейнерные - удаляются перед проверкой)

Написано более трёх лет назад
ThunderCat @ThunderCat Куратор тега HTML

xmoonlight: а как же первым пунктом идет - Удаляем все контейнеры, с количеством дочерних элементов превышающих 1 - по этой логике весь пост - в мусорку

Написано более трёх лет назад
xmoonlight @xmoonlight
ThunderCat: это по Вашей логике)))))
Пример:
<tag1> <tag11>...</tag11> <tag12>...</tag12> <tag13>...</tag13> </tag1> <tag2> <tag21>...</tag21> </tag2> <tag3> <tag31><tag311>...</tag311></tag31> </tag3>

Вот тут останется только tag21 и tag311, т.к. другие либо вообще не содержат элементов, либо содержат более одного.
Написано более трёх лет назад
ThunderCat @ThunderCat Куратор тега HTML
xmoonlight: это по логике дом объекта и Вашему алгоритму )
<div1> <div2> <span contetnt> some text <p> <i>more text</i> </p> </span contetnt> </div2> </div1>

что останется после первого шага?
Написано более трёх лет назад
xmoonlight @xmoonlight
ThunderCat:
<div2> some text more text </div2>
Написано более трёх лет назад
ThunderCat @ThunderCat Куратор тега HTML

xmoonlight: то есть span, i и p мы к дочерним элементам более не относим? ) ХТМЛ с Вами категорически не согласен ) Ок, это разметочные теги, ну а оформление в ckeditor, когда пихается в дивах картинки и проч. - тоже в мусор?

Написано более трёх лет назад
xmoonlight @xmoonlight

ThunderCat: картинки не имеют текста - они автоматом в мусор. после того, как будет выяснен нужный блок (содержащий максимум текста) - он берётся со всеми тегами из исходного кода (не почищенного), включая ВСЕ ДОЧЕРНИЕ СЕКЦИИ И ТЕГИ.
Далее, мы с этим исходным кодом найденного блока делаем всё, что необходимо: удаляем всю/часть разметки, чистим лишнее или оставляем как есть, и т.д.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 10 часов назад
- 109 просмотров
0

ответов
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 303 просмотра
2

ответа
HTML

+1 ещё

Простой
Как реализовать форму ввода как в веб-версии chatGPT?
- 3 подписчика
- 13 нояб.
- 187 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 237 просмотров
1

ответ
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 187 просмотров
0

ответов
HTML

Простой
При клике на кастомную кнопку “Скачать” не происходит переход, хотя JS-обработчик отрабатывает. Как решить?
- 1 подписчик
- 29 окт.
- 187 просмотров
0

ответов
HTML

+1 ещё

Простой
Как создать карточки в рядах со смещением?
- 1 подписчик
- 28 окт.
- 129 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 183 просмотра
0

ответов
HTML

+1 ещё

Простой
Как в руководстве steam сделать обтекающий картинку текст?
- 1 подписчик
- 08 окт.
- 149 просмотров
1

ответ
HTML

+1 ещё

Средний
Скачал плагин image preview в вс коде, чтобы установить иконку сайта. Иконка появилась в браузере, но не появилась слева напротив строки. Почему так?
- 1 подписчик
- 30 сент.
- 158 просмотров
1

ответ
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

Frontend Developer (React + Node.js)

Alfabet Service

от 1 000 до 2 000 $

Senior Frontend-разработчик в команду управления доступами

SMALL

от 3 000 до 4 700 $

Answer 1 · 2016-04-08 11:48:52

Эта задача называется data region mining и является довольно хитрой проблемой, т.к. верстка может быть везде разной, а вы решаете задачу поиска основного контента на сайте(т.е. обрезать рекламу, навигационные блоки, левые вставки, спрятанный контент и прочее)
Вот вам на вскидку алгоритм:

1. Для каждой html ноды в дереве, вычислить её площадь(рендерите через phantom.js и вычисляете площадь через Element.getBoundingClientRect())
2. Удаляете все, что меньше средней площади на этом уровне. (Вычищаем не имеющие значения блоки)
3. Спускаетесь вниз на один уровень и повторяете алгоритм

В результате получите набор текстовых блоков, которые имеют максимальный объем на странице.

Вам нужно будет эмпирически до настроить алгоритм под ваш use case:
Например, если перед вами регион с большим количеством текстовых блоков, то достать текст из всех дочерних и уложить в регион(таким образом мы избегаем вырезки bold italic текста).

Дальше за вами стоит задача объединить эти регионы в статью/статьи(в случае с лентой).
--------
Существуют и более любопытные алгоритмы по вычислению попарной similarity между произвольными дочерними нодами с целью найти data region
Но это вам нужно читать опубликовынные статьи на эту тему, например:
dl.acm.org/citation.cfm?id=1060761

Answer 2 · 2016-04-07 13:22:45

Конечно есть - lxml.de/lxmlhtml.html#cleaning-up-html
Ну и уже из очищенного можно выделять что нужно.
Да, забирать лучше библиотекой requests - docs.python-requests.org/en/master

Answer 3 · 2016-04-07 12:52:48

Штучная ручная работа, под каждый сайт пишется свой маленький велосипедик.
Ну, не велосипедик, скорее прикручиваются другие колеса к одному велосипеду.

Answer 4 · 2016-04-07 13:01:34

ну, если кратко: это задача поиска ОСНОВНОГО контента страницы.
1. Удаляем все контейнеры, с количеством дочерних элементов превышающих 1.
2. Чистим контейнер body от всех тегов, кроме тегов-контейнеров (div,td)
3. Находим контейнер (div,td) с самым длинным текстом.
4. Смело его грабим.

Answer 5 · 2016-04-07 14:24:34

Mikhail S @sokolov86

JavaScript https://github.com/mozilla/readability

Ответ написан более трёх лет назад

Комментировать

Answer 6 · 2016-05-04 15:03:15

Apist - отличная вещь! Позволяет с легкостью парсить страницы, обращайся к элементам в стиле jquery. Пример парсинга Хабра:

public function index()
{
	return $this->get('/', [
		'title' => Apist::filter('.page_head .title')->text()->trim(),
		'posts' => Apist::filter('.posts .post')->each([
			'title'      => Apist::filter('h1.title a')->text(),
			'link'       => Apist::filter('h1.title a')->attr('href'),
			'hubs'       => Apist::filter('.hubs a')->each(Apist::filter('*')->text()),
			'author'     => [
				'username'     => Apist::filter('.author a'),
				'profile_link' => Apist::filter('.author a')->attr('href'),
				'rating'       => Apist::filter('.author .rating')->text()
			]
		])
	]);
}

Возвращает данные массивом:

{
    "title": "Публикации",
    "posts": [
        {
            "title": "Проверьте своего хостера на уязвимость Shellshock (часть 2)",
            "link": "http:\/\/habrahabr.ru\/company\/host-tracker\/blog\/240389\/",
            "hubs": [
                "Блог компании ХостТрекер",
                "Серверное администрирование",
                "Информационная безопасность"
            ],
            "author": {
                "username": "smiHT",
                "profile_link": "http:\/\/habrahabr.ru\/users\/smiHT\/",
                "rating": "26,9"
            }
        },
        {
            "title": "Курсы этичного хакинга и тестирования на проникновение от PentestIT",
            "link": "http:\/\/habrahabr.ru\/company\/pentestit\/blog\/240995\/",
            "hubs": [
                "Блог компании PentestIT",
                "Учебный процесс в IT",
                "Информационная безопасность"
            ],
            "author": {
                "username": "pentestit-team",
                "profile_link": "http:\/\/habrahabr.ru\/users\/pentestit-team\/",
                "rating": "36,4"
            }
        },
        ...
    ]
}

Тут подробнее

Answer 7 · 2016-04-07 12:58:02

Александр Таратин @Taraflex

Ищу работу. Контакты в профиле.

Php-readability Какой порт выбрать?
https://github.com/masukomi/ar90-readability

Ответ написан более трёх лет назад

Комментировать

Answer 8 · 2016-04-07 21:39:39

Для Python 3 использовал либу https://pypi.python.org/pypi/newspaper Получает только контент страницы. В большинстве сайтов с нормальной версткой работает отлично.

Answer 9 · 2016-04-08 17:49:13

KkJ @KkJ

Полно
Scrapy.

Ответ написан более трёх лет назад

Комментировать

Парсим/грабим веб-страницы без мусора?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт