Как разбить web-документ на семантические блоки?

Question

seowin555 @seowin555

Как разбить web-документ на семантические блоки?

Доброго времени суток!

Подскажите, кто сталкивался с подобным, каким образом с помощью php можно разбить html-страницу на блоки: выделить основную часть с контентом, меню, футер и т.д., не зная структуру DOM?

Интересует в большей степени определение основного контента страницы.

В сети есть материалы на эту тему, но что-то я не совсем понял алгоритм реализации.

Например:
habrahabr.ru/post/210824
www.vestnik.vsu.ru/pdf/analiz/2008/02/2008_02_20.pdf

Вопрос задан более трёх лет назад
204 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

Язык программирования PHP

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

seowin555 @seowin555 Автор вопроса

Спасибо за ответ!

Пробовал нечто подобное - добавлял код двух страниц в массивы, потом сравнивал массивы между собой.

Поясните, пожалуйста, что вы подразумеваете под фразой "логическое вычитание"?

У вас случайно не осталось кода, реализующего это?

Написано более трёх лет назад
xmoonlight @xmoonlight

seowin555: Я делал аналитический анализ, так что кода нет. Логическое вычитание - это если одинаковое, то 0, иначе - 1.

Написано более трёх лет назад
seowin555 @seowin555 Автор вопроса

А вы делали вычитание чего? Каких именно блоков?

Например, если сравнивать каждый элемент дерева, то как это правильно сделать, если у нас, например, основной код страницы такой:

страница 1:

текст, который содержится на всех страницах

какой-то текст
картинка
какой-то текст
видео
какой-то текст

страница 2:

текст, который содержится на всех страницах

видео
какой-то текст
какой-то текст
картинка
какой-то текст

Получается, если мы сравниваем первый div () у двух страниц, то он не совпадает, так как внутреннее содержание меняется.

Хотя по факту он одинаков, так как меняется только контейнер (в нем различное содержание).

Вот этот момент не ясен, как определить, что именно в контейнере содержится контент, который меняется, а не в ?

Написано более трёх лет назад
seowin555 @seowin555 Автор вопроса

Блин...весь html код пропал..

Написано более трёх лет назад
xmoonlight @xmoonlight

seowin555: там, где больше БЕЗССЫЛОЧНОГО! текста, тот и есть "контент".

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как отдать ответ клиенту без ожидания завершения скрипта?
- 1 подписчик
- вчера
- 412 просмотров
4

ответа
PHP

Простой
Как в PHP вернуть NULL по ссылке?
- 1 подписчик
- 21 дек.
- 153 просмотра
1

ответ
JavaScript

+2 ещё

Средний
E2EE + WEB = поищем безопасность?
- 1 подписчик
- 20 дек.
- 227 просмотров
2

ответа
PHP

Простой
Как декодировать/закодировать спец символы в get запросе?
- 1 подписчик
- 18 дек.
- 141 просмотр
1

ответ
PHP

Простой
Как вызвать curl и не ждать ответ?
- 1 подписчик
- 16 дек.
- 319 просмотров
2

ответа
PHP

Простой
Как сделать это?
- 1 подписчик
- 11 дек.
- 303 просмотра
2

ответа
Веб-разработка

Средний
Какие есть программы/инструменты для создания веб каталога запчастей?
- 3 подписчика
- 08 дек.
- 454 просмотра
4

ответа
Веб-разработка

Простой
Ограничение в РФ, как обойти и не потерять клиентов?
- 1 подписчик
- 08 дек.
- 493 просмотра
5

ответов
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 246 просмотров
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- 05 дек.
- 236 просмотров
1

ответ
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

TeamLead PHP (Symfony)

AGIMA • Москва

от 210 000 ₽

Answer 1 · 2015-12-19 11:43:45

Как раз занимался этим 2 года назад)
А все просто - это логическое вычитание двух страниц с разным наполнением:
две разные статьи, два товара и т.д. (т.е. "листовые" элементы структуры дерева)
Соответственно, после этого вы получаете как раз код только той части, которая изменилась.
Затем, сортируете блоки (из результата) по объему текста в порядке УБЫВАНИЯ и получаете код, содержащий контент (первый элемент списка).

Как разбить web-документ на семантические блоки?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт