Как найти дубли URL через регулярные выражения?

Как найти дубли URL (например, www.habr.ru и habr.ru, https://habr.ru и www.habr.ru) через регулярные выражения?

P.S. habr.ru и habr.ru/test.htm / habr.ru и habr.ru/yyy/.. уже разные url
  • Вопрос задан
  • 62 просмотра
Пригласить эксперта
Ответы на вопрос 3
firedragon
@firedragon
Не джун-мидл-сеньор, а трус-балбес-бывалый.
Не используйте регекспы для логики. Это главный совет. Используйте код в этом случае.
Нормализуйте все ваши ссылки, а дальше используйте поиск, либо используйте хэш таблицу, там вообще получится
Ответ написан
Комментировать
dimonchik2013
@dimonchik2013
non progredi est regredi
думаю, вам надо это
https://www.linkedin.com/pulse/regex-seo-cheatshee...

но вообще задача сложнее и без конкретики нет точного ответа
а) если очистить только домены - это одно
б) если острипить только www и схему - это другое
Ответ написан
Комментировать
mayton2019
@mayton2019
Bigdata Engineer
Эта задачка не на регулярки а на программирование. Если у вас есть список этих URL в виде CSV, то надо брать язык который вы знаете (PHP или Node) и писать логику нормализации. А потом унификации. Например.

Input:
habr.ru
habr.ru/test.htm
https://habr.ru
habr.ru/yyy
www.habr.ru
https://habr.ru

нормализуем. Отбрасываем например название протокола
habr.ru
habr.ru/test.htm
habr.ru
habr.ru/yyy
www.habr.ru
habr.ru

Сортируем
habr.ru
habr.ru
habr.ru
habr.ru/test.htm
habr.ru/yyy
www.habr.ru


И вот они дубли 3 штуки. Можете итератором пройти и собрать. Или сделать agg/count в языке где
такое с коллекциями делают.

И никаких регулярок.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
22 нояб. 2024, в 00:55
500 руб./за проект
21 нояб. 2024, в 23:30
300000 руб./за проект
21 нояб. 2024, в 22:21
3000 руб./в час