Как получить содержательную часть страницы?

Question

Zawchik @Zawchik

PHP
HTML

Как получить содержательную часть страницы?

Доброго дня хабрасообществу!

Через cURL прочитана страница, теперь нужно из неё вытащить содержательную часть, т.е. сам текст, без меню, комментариев, шапок, подвалов и прочего. Посоветуйте, как это можно сделать «малой кровью»? Подозреваю, что это должен быть какой-то шаблон в preg_match…

Вопрос задан более трёх лет назад
11543 просмотра

Комментировать

Подписаться 13 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

Язык программирования PHP

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 15

Комментировать

1 комментарий

3 комментария

Комментировать

1 комментарий

2 комментария

Комментировать

2 комментария

1 комментарий

Комментировать

4 комментария

Zawchik @Zawchik Автор вопроса

В общем, да. Сейчас я написал выборку из title, body, h1, получение и вырезку всех ссылок. Без ссылок, голый текст, в целом подходит, но хочется лучше.
Кстати, все выборки получились через preg_match и preg_replace

Написано более трёх лет назад
MrMig @MrMig

Если вам удастся написать парсер для общего случая (выделение контента с произвольного сайта без информации о структуре макета), то вполне возможно будет продать его тому же гуглу. И это не шутка. Задача довольно нетривиальная, для узких юзкейсов решаема, но в целом беда.

Написано более трёх лет назад
PO6OT @woonem

MrMig: круто. я богат

Написано более трёх лет назад
PO6OT @woonem

MrMig: мне сейчас показалось, что вы написали глупость. всё нормально у них с выделением содержимого. вы что-то отстали

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как отдать ответ клиенту без ожидания завершения скрипта?
- 1 подписчик
- 2 часа назад
- 42 просмотра
2

ответа
PHP

Простой
Как в PHP вернуть NULL по ссылке?
- 1 подписчик
- 10 часов назад
- 87 просмотров
1

ответ
PHP

Простой
Как декодировать/закодировать спец символы в get запросе?
- 1 подписчик
- 18 дек.
- 131 просмотр
1

ответ
PHP

Простой
Как вызвать curl и не ждать ответ?
- 1 подписчик
- 16 дек.
- 308 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Как можно реализовать что то вроде селекта внутри родителя у которого есть скрытые элементы и должна быть горизонтальная прокрутка?
- 2 подписчика
- 11 дек.
- 166 просмотров
0

ответов
PHP

Простой
Как сделать это?
- 1 подписчик
- 11 дек.
- 293 просмотра
2

ответа
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 242 просмотра
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- 05 дек.
- 231 просмотр
1

ответ
PHP

Простой
Проблема с PDO LIKE?
- 1 подписчик
- 04 дек.
- 179 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как сделать резкое переключение слайдов?
- 1 подписчик
- 03 дек.
- 182 просмотра
0

ответов
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

TeamLead PHP (Symfony)

AGIMA • Москва

от 210 000 ₽

Answer 1 · 2012-09-17 16:20:05

EugeneOZ @EugeneOZ

Не надо парсить HTML регулярками.
Читайте на StackOverflow: stackoverflow.com/a/1732454/680786

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2012-09-18 00:26:11

Yuri Morozov @metamorph

Люди на эту тему научные статьи пишут, а Вы хотите preg_match обойтись :)

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2012-09-17 15:24:43

function getContentFromHtml($aText)
{
	return preg_replace(
			array(
				'@<head[^>]*?>.*?</head>@siu',
				'@<style[^>]*?>.*?</style>@siu',
				'@<script[^>]*?.*?</script>@siu',
				'@<object[^>]*?.*?</object>@siu',
				'@<embed[^>]*?.*?</embed>@siu',
				'@<applet[^>]*?.*?</applet>@siu',
				'@<noframes[^>]*?.*?</noframes>@siu',
				'@<noscript[^>]*?.*?</noscript>@siu',
				'@<noembed[^>]*?.*?</noembed>@siu',

				'@</?((address)|(blockquote)|(center)|(del))@iu',
				'@</?((div)|(h[1-9])|(ins)|(isindex)|(p)|(pre))@iu',
				'@</?((dir)|(dl)|(dt)|(dd)|(li)|(menu)|(ol)|(ul))@iu',
				'@</?((table)|(th)|(td)|(caption))@iu',
				'@</?((form)|(button)|(fieldset)|(legend)|(input))@iu',
				'@</?((label)|(select)|(optgroup)|(option)|(textarea))@iu',
				'@</?((frameset)|(frame)|(iframe))@iu',
				'@<[^>]*>@siu',
				'@&[^;]+?;@siu',
				'@(\s+)@siu'
			),
			array(
				'',
				'',
				'',
				'',
				'',
				'',
				'',
				'',
				'',

				'$0',
				'$0',
				'$0',
				'$0',
				'$0',
				'$0',
				'$0',
				'',
				' ',
				' '
			),
			$aText
		);
}

Вот такое есть в моем загашнике. Не фонтан, конечно.

Answer 4 · 2012-09-17 16:21:59

Gesper @Gesper

Попробуйте раскурить code.google.com/p/boilerpipe/

Ответ написан более трёх лет назад

3 комментария

Answer 5 · 2012-09-17 17:40:55

librarian @librarian

code.google.com/p/arc90labs-readability/ proof of concept от создателей ReadAbility.

Ответ написан более трёх лет назад

Комментировать

Answer 6 · 2012-09-17 15:18:03

avalak @avalak

Используйте Simple HTML DOM или другие библиотеки с аналогичным функционалом.

Ответ написан более трёх лет назад

1 комментарий

Answer 7 · 2012-09-17 15:23:19

Если речь о статье на Хабре, то открыв код статьи сразу видно, что вся статья содержится в
<div id="post_123456" class="post shortcuts_item">

При этом post_123456 — номер поста, который есть в URL

Сам текст (без заголовка, списка хабов и т.д.) содержится в
<div class="content html_format">

Ну а если речь идёт про общий случай, то надо использовать парсер html, ибо регулярками не обойтись

Answer 8 · 2012-09-17 15:40:27

Многие сайты, выполненные на популярных движках, имеют шаблонную верстку. А это вам на руку. Всякие DLE, WordPress и подобные четко выделяют css-классами основной контент страницы. Можно идентифицировать на этой основе примененный движок и однократно написать запросы к SHD (Simple HTML DOM, выше упоминалось). Для нераспознанных сайтов стоит искать знаковые блоки (main, content, body и т.п.).

Answer 9 · 2012-09-17 15:58:41

uadeveloper @uadeveloper

Можно и «почти» готовым вариантом воспользоваться
habrahabr.ru/post/114323/

Ответ написан более трёх лет назад

2 комментария

Answer 10 · 2012-09-17 16:31:58

Спасибо всем за решения, однако всё равно остаётся много вопросов.
Например, сайты, которые будут основными при обкатке скрипта, мало того, что не содержат тега h1 в принципе, так ещё и свёрстаны на таблицах и ASP со всем вытекающим мусором.
А вот, скажем, плагин к хрому evernote сразу безошибочно выделил нужный столбец. Или вот как ВКонтакте сделали — скармливаешь им ссылку, они сразу «просмотр» и там содержательная часть статьи.
Вот нужно что-то аналогичное…

Answer 11 · 2012-09-17 17:30:42

Какой либо универсальный парсер думаю вы не найдете.
Можно конечно попробовать написать функционал для всех популярных CMS, но стоит ли оно того?

Для парсинга тоже рекомендую Simple HTML DOM. Он как раз отлично подходит для этой задачи.

Answer 12 · 2012-09-17 18:15:25

У вас стоит задача написать универсальный парсер? Чтобы для любой страницы примерно мог выдать заголовок и тело?

Answer 13 · 2013-02-25 18:15:15

Александр Хмелев @akhmelev

программист

Очень актуально. Поделитесь, решение было найдено?

Ответ написан более трёх лет назад

Комментировать

Answer 14 · 2013-04-28 16:42:00

Вот здесь я использовал для этих целей два алгоритма — добавить всё это уже описанныйе варианты отбора чистого текста. Отфильтровать тут было чуть умнее — все i, strong, h1 и т.п. заменял на b.
Все p, span, div и т.п. заменял на разделитель какой-то (не помню уже). Все незначащие теги типа head img и т.п. удалял.

В результате получалось множество блоков текста, в которых был чистый текст, выделенный текст и текст со ссылками.
дальше я вычислял для каждого блока количество текста в блоке, какой процент этого текста выделенный, и какой под ссылкой.
Блоки в которых текст был слишком коротким или в нем было слишком много выделений или ссылок я отбрасывал.

Если кому будет интересен мой говнокод шестилетней давности (а он 99% что дикий был), то могу дать в личку. Но лучше воспроизведите алгоритм сами. Будет адекватнее :)

Answer 15 · 2013-12-19 08:54:47

Алексей @photo_profile

Попробуй simplehtmldom.sourceforge.net

Ответ написан более трёх лет назад

Комментировать

Как получить содержательную часть страницы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт