Эта задачка не на регулярки а на программирование. Если у вас есть список этих URL в виде CSV, то надо брать язык который вы знаете (PHP или Node) и писать логику нормализации. А потом унификации. Например.
Input:
habr.ru
habr.ru/test.htm
https://habr.ru
habr.ru/yyy
www.habr.ru
https://habr.ru
нормализуем. Отбрасываем например название протокола
habr.ru
habr.ru/test.htm
habr.ru
habr.ru/yyy
www.habr.ru
habr.ru
Сортируем
habr.ru
habr.ru
habr.ru
habr.ru/test.htm
habr.ru/yyy
www.habr.ru
И вот они дубли 3 штуки. Можете итератором пройти и собрать. Или сделать agg/count в языке где
такое с коллекциями делают.
И никаких регулярок.