bsideup
@bsideup

Machine learning. Как сделать выведение pattern-ов на большом объёме данных?

Здравствуйте. Ищу хоть какие-то материалы на тему поиска однотипных URL-ов среди поступающего потока данных.

Например, нам в большом кол-ве приходят данные вида:
/api/users/11
/api/users/10
/api/users/10a
/api/users/
/api/users/10/events/99999/
/api/users/abc/events/99999/

Надо чтобы система со временем умела их категоризировать по типу:

/api/users/11 -> /api/users/*
/api/users/10 -> /api/users/*
/api/users/10a -> /api/users/*
/api/users/ -> /api/users/
/api/users/10/events/99999/ -> /api/users/*/events/*
/api/users/abc/events/99999/ -> /api/users/*/events/*

Спасибо!
  • Вопрос задан
  • 383 просмотра
Пригласить эксперта
Ответы на вопрос 1
Путь URL можно рассматривать как ориентированный граф.
Каждая часть пути, разделённая косой чертой, представляет собой узел.
Повторяющиеся узлы могут быть слиты воедино, если они соответствуют определённым шаблонам узлов и частота таких узлов равна единице (URL некоторого товара на сайте уникален несмотря на повторения в запросах в логах). Допустим, только числовые значения (/1/, /2/, /999/) или узлы, генерируемые для permalink (/kakoe-to-nazvanie-statii-bloga/).

Дополнительная ссылка: Кластеризация графов и поиск сообществ.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы