выкидываем из строки все цифры (+пробелы, +знаки препинания).
от остального считаем хэш любым алгоритмом (CRC32, MD5, etc)
ваши строки сматчатся в одно значение.
вы этого хотели?
если нет — потрудитесь объяснить что значит «схожие строки» — на мой взгляд это совсем разные строки — дом 12 по улице Васюковской — это 8-подъездная многоэтажка, а дом 121 — это ветхая хибара.