Python какими средствами проанализировать массив строк и выделить наиболее употребляемую маску?

Question

If-so-girl1 @If-so-girl1

Python какими средствами проанализировать массив строк и выделить наиболее употребляемую маску?

Мне необходимо проанализировать массив url-ов, и выделить каким-то образом часто употребляемую маску ссылки. К примеру, у меня есть такие url-ы:
"lenta.ru/articles/2014/10/08/mosclassicgp"
"lenta.ru/photo/2014/10/07/longway"
"lenta.ru/photo/2014/10/03/misstuning"
"lenta.ru/photo/2014/08/27/nivajpg"
"lenta.ru/photo/2014/02/18/dynamic"
"lenta.ru/news/2014/10/08/nsxprice"
"lenta.ru/autosport"

При визуальном анализе можно выделить, что наиболее часто использующаяся маска будет lenta.ru/photo<4цифры>/<2 цифры>/<2 цифры>/<текст>
Хотелось бы что-то подобное автоматизированными средствами, может, какие-то библиотеки есть для этого, ну или на крайний случай алгоритм какой-то.

Вопрос задан более трёх лет назад
2552 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 157 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 109 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 94 просмотра
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 94 просмотра
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 239 просмотров
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 279 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 172 просмотра
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 151 просмотр
1

ответ
Хранение данных

+1 ещё

Сложный
Как сделать Service Structure рабочими в Tempo?
- 1 подписчик
- 06 нояб.
- 43 просмотра
0

ответов
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 274 просмотра
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2014-10-10 13:58:10

Библиотеки специфичной навряд ли найдете, но алгоритм предельно прост:

# Критерии
def isdigits(str):
   for i in str:
      if not i.isdigit()
         return False
   return True

def istext(str):
# какая-то логика

token = ("type_of_token", "value_of_token", len("value_of_token"))

def process_link(link):
   tokenlist = []
   for i in link.split('/'):
      if isdigit(i):
         tokenlist.append(("digit", i, len(i))
      if istext():
         tokenlist.append(("text", i, len(i))
   return tokenlist

Остается только получить список токенов для каждой ссылки и посчитать похожие варианты)

Python какими средствами проанализировать массив строк и выделить наиболее употребляемую маску?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт