Задать вопрос
@seowin555

Как разбить web-документ на семантические блоки?

Доброго времени суток!

Подскажите, кто сталкивался с подобным, каким образом с помощью php можно разбить html-страницу на блоки: выделить основную часть с контентом, меню, футер и т.д., не зная структуру DOM?

Интересует в большей степени определение основного контента страницы.

В сети есть материалы на эту тему, но что-то я не совсем понял алгоритм реализации.

Например:
habrahabr.ru/post/210824
www.vestnik.vsu.ru/pdf/analiz/2008/02/2008_02_20.pdf
  • Вопрос задан
  • 204 просмотра
Подписаться 2 Оценить Комментировать
Помогут разобраться в теме Все курсы
  • Skillfactory
    Профессия Fullstack веб-разработчик на JavaScript и PHP
    20 месяцев
    Далее
  • Хекслет
    PHP-разработчик
    10 месяцев
    Далее
  • Нетология
    Веб-разработчик с нуля: профессия с выбором специализации
    14 месяцев
    Далее
Пригласить эксперта
Ответы на вопрос 1
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Как раз занимался этим 2 года назад)
А все просто - это логическое вычитание двух страниц с разным наполнением:
две разные статьи, два товара и т.д. (т.е. "листовые" элементы структуры дерева)
Соответственно, после этого вы получаете как раз код только той части, которая изменилась.
Затем, сортируете блоки (из результата) по объему текста в порядке УБЫВАНИЯ и получаете код, содержащий контент (первый элемент списка).
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы