@seowin555

Как разбить web-документ на семантические блоки?

Доброго времени суток!

Подскажите, кто сталкивался с подобным, каким образом с помощью php можно разбить html-страницу на блоки: выделить основную часть с контентом, меню, футер и т.д., не зная структуру DOM?

Интересует в большей степени определение основного контента страницы.

В сети есть материалы на эту тему, но что-то я не совсем понял алгоритм реализации.

Например:
habrahabr.ru/post/210824
www.vestnik.vsu.ru/pdf/analiz/2008/02/2008_02_20.pdf
  • Вопрос задан
  • 200 просмотров
Пригласить эксперта
Ответы на вопрос 1
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Как раз занимался этим 2 года назад)
А все просто - это логическое вычитание двух страниц с разным наполнением:
две разные статьи, два товара и т.д. (т.е. "листовые" элементы структуры дерева)
Соответственно, после этого вы получаете как раз код только той части, которая изменилась.
Затем, сортируете блоки (из результата) по объему текста в порядке УБЫВАНИЯ и получаете код, содержащий контент (первый элемент списка).
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы