Как работают сервисы типа websvodka.ru?

Question

Кир Марченко @kir64

python developer

Веб-разработка

Как работают сервисы типа websvodka.ru?

Прочитал про них статью на хабре:
habrahabr.ru/company/embc/blog/249075

Как сделать простое текстовое сравнение понятно, а вот как происходит графическое отображение всего что изменилось с сохранением дизайна страницы как на скриншоте здесь:

и здесь:

Как такое может быть реализовано?

Вопрос задан более трёх лет назад
1083 просмотра

3 комментария

Подписаться 2 Оценить 3 комментария

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
ProductStar

Профессия: Web-разработчик

8 месяцев

Далее
Skillfactory

Профессия Веб-разработчик

12 месяцев

Далее

Решения вопроса 2

2 комментария

5 комментариев

Кир Марченко @kir64 Автор вопроса

>А вот и совсем не понятно, потому что текстового сравнения HTML там нет.

Я имел ввиду текстовое построчное сравнение текста, очищенного от html-тегов, т.е. по сути только текст который видит пользователь. Увы, решение очень далеко от идеала, поскольку так или и наче в дифф просачивается лишняя информация, а необходимая может не попасть из-за некорректной фильтрации тегов. Даже на этом этапе мы столкнулись с огромным количеством "граничных случаев", которые требуют индивидуального подхода с потерей времени и костылестроением. Постороение визуального диффа прямо внутри дизайна страницы мне видится наиболее верным решением задачи, но, увы, оно пока выглядит еще более запутанным и трудозатратным.

Написано более трёх лет назад
nirvimel @nirvimel

Кир Марченко: Так вы что HTML как строку разбираете? Я вам говорю про при принципиально иное решение. Прочитайте еще раз мой ответ. Самый первый шаг - это парсинг HTML в DOM-дерево (на самом деле lxml-документ это аналог DOM в javascript) и дальше работа только с ним, никакого строкового месива из тегов.

Написано более трёх лет назад
Кир Марченко @kir64 Автор вопроса

nirvimel: я понял идею, спасибо, я говорю как сейчас сделан вариант который не устраивает. Python + lxml на вход принимают исходник страницы, на выход дают массив строк.

Пример со стэковерфлоу:
from lxml import html
from lxml.html.clean import clean_html

tree = html.parse('www.example.com')
tree = clean_html(tree)

text = tree.getroot().text_content()

и никакого месива из тегов.

Написано более трёх лет назад
nirvimel @nirvimel

Кир Марченко: tree.getroot().text_content()
Ну и как потом все это собирать обратно в документ?

Написано более трёх лет назад
Кир Марченко @kir64 Автор вопроса

nirvimel:
>я говорю как сейчас сделан вариант который не устраивает

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+2 ещё

Средний
E2EE + WEB = поищем безопасность?
- 1 подписчик
- 21 час назад
- 126 просмотров
2

ответа
Веб-разработка

Средний
Какие есть программы/инструменты для создания веб каталога запчастей?
- 3 подписчика
- 08 дек.
- 446 просмотров
4

ответа
Веб-разработка

Простой
Ограничение в РФ, как обойти и не потерять клиентов?
- 1 подписчик
- 08 дек.
- 467 просмотров
5

ответов
JavaScript

+2 ещё

Простой
Элемент стилизации на js, как сделать чтобы не было резкой смены картинки фона?
- 1 подписчик
- 27 нояб.
- 222 просмотра
1

ответ
Веб-разработка

+1 ещё

Простой
Как включить ai ассистента в dev-tools в рф?
- 1 подписчик
- 25 нояб.
- 298 просмотров
0

ответов
Веб-разработка

+1 ещё

Простой
Подойдет ли desktop-ubuntu для разворачивания web- сервера?
- 2 подписчика
- 25 нояб.
- 645 просмотров
5

ответов
WordPress

+2 ещё

Простой
Как создать сайт с музыкой?
- 2 подписчика
- 24 нояб.
- 603 просмотра
5

ответов
Веб-разработка

Простой
Какие есть аналоги иностанных web песочниц типа JSFiddle, codepen ...?
- 1 подписчик
- 16 нояб.
- 377 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Как реализовать хранение денег пользователей на сайте?
- 2 подписчика
- 15 нояб.
- 739 просмотров
6

ответов
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 411 просмотров
2

ответа
Показать ещё Загружается…

Fullstack Next.js Cursor Developer

Nocodered

от 60 000 до 120 000 ₽

SEO-специалист (Сеть образовательных проектов)

Профессиональный Стандарт • Москва

До 100 000 ₽

PHP / WordPress разработчик ACF, Elementor (удаленный, свободный график)

Nomadic Soft

от 1 200 до 1 800 $

Answer 1 · 2015-11-23 15:02:56

Дизайн страницы зависит от css.
Css зависит от html.
Чтобы сохранить дизайн страницы нужно сохранить html.
Чтобы сохранить html нужно строить AST обеих версий и показывать изменения на максимально глубоком уровне.

Answer 2 · 2015-11-23 15:29:25

Как сделать простое текстовое сравнение понятно

А вот и совсем не понятно, потому что текстового сравнения HTML там нет. Страница сначала полностью парсится, потом идет по-элементное сравнение всех текстовых элементов. Если расстояние меньше константы, элементам присваивается единый uid (то есть они признаются парой вариантов одного элемента). Для других тегов, содержащих в себе текст оценивается относительный объем совпадающих дочерних текстовых элементов, на основе этого производится их идентификация, и так идет проход снизу вверх, пока не соберется общее дерево. А сама раскраска diff-отличий для сопоставленных текстовых элементов - тривиальная задача.

Я хорошо знаю эту тему, потому что однажды писал подобное. Тема сложная, готовых решений нет, универсальных подходов тоже нет (мое описание упрощено на порядок), куча разных граничных случаев, мозг закипает от одной только декомпозиции задачи. В общем я так и не закончил решение в тот раз, спонсор потерял веру в проект, а без финансирования на голом энтузиазме такого масштаба проекты не заканчиваются в одиночку. До сих пор мечтаю продолжить, пусть на других технологиях, но с большим опытом в этой теме.

Answer 3 · 2015-11-23 14:57:30

s0ci0pat @s0ci0pat

I'm Awesome

С помощью HTML и CSS

Ответ написан более трёх лет назад

Комментировать

Как работают сервисы типа websvodka.ru?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт