Доброго дня.
Прошу хабрасообщества идеи реализации алгоритма. Суть задачи следующая: есть веб паук, который собирает html странички с контентом. Чтоб избежать дублирования страниц (например
www.example.com и
www.example.com/index.php) необходимо посчитать ее хеш (md5, любой другой) чтоб быть уверенным что подобная страничка уже есть в базе.
Вроде задача простая и легко решается в лоб чем нить типа md5(file_get_contents('http://www.example.com')) НО бывает такое что не совпадает буквально 2-3 символа (например менеджер рекламы типа openx генерирует разные ID баннеров на стороне сервера). Соответственно md5 будут в корне разные. Так же может быть такое что количество символов тоже будет разное (ID баннера например может быть 5 символов и 1 символ).
Основная задача хеша — избежать дублирующихся страниц при условии что в БД может быть сотни тысяч страниц.
Какой есть алгоритм БЫСТРОГО ПОИСКА по базе с учетом что схожесть страниц может быть 100-90%
Страницы которые обрабатывает паук могут быть абсолютно разные и «динамические» вставки кода не поддаются никакой алгоритмизации. Т.е. нельзя вырезать их их HTML потока каким нибудь регэкспом.