• Как разбить web-документ на семантические блоки?

    @seowin555 Автор вопроса
    Блин...весь html код пропал..
  • Как разбить web-документ на семантические блоки?

    @seowin555 Автор вопроса
    А вы делали вычитание чего? Каких именно блоков?

    Например, если сравнивать каждый элемент дерева, то как это правильно сделать, если у нас, например, основной код страницы такой:

    страница 1:

    текст, который содержится на всех страницах

    какой-то текст
    картинка
    какой-то текст
    видео
    какой-то текст

    страница 2:

    текст, который содержится на всех страницах

    видео
    какой-то текст
    какой-то текст
    картинка
    какой-то текст

    Получается, если мы сравниваем первый div () у двух страниц, то он не совпадает, так как внутреннее содержание меняется.

    Хотя по факту он одинаков, так как меняется только контейнер (в нем различное содержание).

    Вот этот момент не ясен, как определить, что именно в контейнере содержится контент, который меняется, а не в ?
  • Как разбить web-документ на семантические блоки?

    @seowin555 Автор вопроса
    Спасибо за ответ!

    Пробовал нечто подобное - добавлял код двух страниц в массивы, потом сравнивал массивы между собой.

    Поясните, пожалуйста, что вы подразумеваете под фразой "логическое вычитание"?

    У вас случайно не осталось кода, реализующего это?