Подсчет хеша веб странички (HTML)

Question

cat_crash @cat_crash

Алгоритмы

Подсчет хеша веб странички (HTML)

Доброго дня.

Прошу хабрасообщества идеи реализации алгоритма. Суть задачи следующая: есть веб паук, который собирает html странички с контентом. Чтоб избежать дублирования страниц (например www.example.com и www.example.com/index.php) необходимо посчитать ее хеш (md5, любой другой) чтоб быть уверенным что подобная страничка уже есть в базе.

Вроде задача простая и легко решается в лоб чем нить типа md5(file_get_contents('http://www.example.com')) НО бывает такое что не совпадает буквально 2-3 символа (например менеджер рекламы типа openx генерирует разные ID баннеров на стороне сервера). Соответственно md5 будут в корне разные. Так же может быть такое что количество символов тоже будет разное (ID баннера например может быть 5 символов и 1 символ).

Основная задача хеша — избежать дублирующихся страниц при условии что в БД может быть сотни тысяч страниц.
Какой есть алгоритм БЫСТРОГО ПОИСКА по базе с учетом что схожесть страниц может быть 100-90%

Страницы которые обрабатывает паук могут быть абсолютно разные и «динамические» вставки кода не поддаются никакой алгоритмизации. Т.е. нельзя вырезать их их HTML потока каким нибудь регэкспом.

Вопрос задан более трёх лет назад
3649 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Яндекс Практикум

Java-разработчик

10 месяцев

Далее
Яндекс Практикум

Python-разработчик расширенный

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

3 комментария

Вячеслав Слинько @KeepYourMind

не заметил, что меняется кол-во символов — тогда так не получится:

true, true, true, true, true, true, false, false, false, false, false, false, false, false

Написано более трёх лет назад
Вячеслав Слинько @KeepYourMind

тогда можно считать не блоки фиксированного размера, а листья дерева.

Написано более трёх лет назад
cat_crash @cat_crash Автор вопроса

Нет уверенности что сайты будут с правильным валидным XHTML кодом которое легко превратится в дерево. Да и дерево может поменяться обычной вставкой допустм Flash баннера после

Написано более трёх лет назад

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 147 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 131 просмотр
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 231 просмотр
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 148 просмотров
1

ответ
Алгоритмы

Сложный
Поиск оптимального маршрута с наимешьшим влиянием на цену в сети ethereum?
- 1 подписчик
- 29 авг.
- 147 просмотров
2

ответа
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 22 авг.
- 237 просмотров
2

ответа
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 186 просмотров
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 295 просмотров
3

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 177 просмотров
1

ответ
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 318 просмотров
3

ответа
Показать ещё Загружается…

Разработчик баз данных

Greenway Global • Новосибирск

от 150 000 до 160 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Answer 1 · 2012-12-18 10:46:21

делим страницы на блоки фикс размера
хешируем блоки
сравниваем по порядку хеши блоков двух страниц
в результате имеем:

true, true, true, true, true, true, false, true, true, true, true, true, false, true

вся задача в подходящем коэффициенте.

Answer 2 · 2012-12-18 14:50:20

Почитайте статью от Яндекса как раз про этот вопрос: download.yandex.ru/company/download/paper_65_v1.pdf. И ссылки оттуда.

Answer 3 · 2012-12-18 10:41:25

Может считать хэши для блоков на сайте?
Типа:
1. Взяли только дерево тэгов, без контента
2. Посчитали хэш для п1
3. Побили на условные блоки опираясь на п1
4. Посчитали хэши для каждого из п3
5. Применили Неведомый Алгоритм, который возьмет в расчет только значимые блоки

Для п5 можно поиграться, как предложил уважаемый itforge

Answer 4 · 2012-12-18 11:01:00

brevis @brevis

Может чем-то таким — similar_text() и levenshtein()?

Ответ написан более трёх лет назад

Комментировать

Подсчет хеша веб странички (HTML)

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт