можно учитывать и порядок букв.
Я же не привожу свой алгоритм, у меня нет коэфициентов, мне интересно есть ли уже существующий, чтобы не изобретать велосипед
Применение не обязательно к адресам. Это может быть что угодно.
Хэши могут отличаться, но так, что бы была возможность при задании некого коэффициента схожести говорить, что эти строки одинаковые.
К примеру полужирный шрифт Opera выделяет с помощью
<!strong>, а Firefox <!span style=«font-weight: bold;» >
курсив соответственно <!em> и <!span style=«font-style: italic;»> и так далее
<! — это чтоб парсер тэги не съедал, на самом деле там просто скобка