Как находить временнЫе паттерны в данных?

Question

Сергей Соколов @sergiks

♬♬

Машинное обучение

Как находить временнЫе паттерны в данных?

Есть лог, состоящий из событий всего трёх типов: А и Б и Й. Запись – две колонки: timestamp и тип ("А", "Б" или "Й").

Есть гипотеза, что определённая разнесённость во времени событий А и Б вызывает событие Й.

Как найти на основе данных наиболее вероятный паттерн событий А и Б, вызывающий Й?

Например, выяснится, что чаще всего событию Й среди прочего "шума" предшествовали события в такой маске:

-50 секунд: А
-35 секунд: Б
-05 секунд: снова А
 00 секунд: происходит событие Й

В обозреваемом окне времени 0..–50 с. встретятся и другие события А/Б, но они от раза к разу не попадают в устойчивый паттерн, и поэтому считаются шумом и исключаются из рассмотрения. Отношение сигнал/шум может быть очень в пользу шума. Величина рассматриваемого "окна" неизвестна. Лишь примерно можно с потолка взять, что оно "от 1 до 1000 секунд".

Временное попадание тоже не из мира целых чисел, а «приблизительно» с некой точностью. Т.е. паттерн можно считать одинаковым, если в первый раз первое событие А было в -50.01 секунду, а во втором случае в -49.52 Относительно размера окна в 50 сек, +–1 секунда точности – допустимое приближение.

Вопрос задан более трёх лет назад
208 просмотров

6 комментариев

Подписаться 3 Оценить 6 комментариев

sim3x @sim3x

Смутно направлю вот в ету сторону https://www.google.com.ua/search?q=entity+recognit...

Написано более трёх лет назад
Сергей Соколов @sergiks Автор вопроса

sim3x: жажду замечаний кого-то, кто сам решал аналогичную задачу недавно.. Списать и понять всегда приятнее, чем пройти курс, понять и написать не сразу что-то работающее )

Написано более трёх лет назад
sim3x @sim3x

Или у вас структурированные данные уже есть?

Если есть, то почему не посмотреть с точки зрения цепей Маркова?

Написано более трёх лет назад
Сергей Соколов @sergiks Автор вопроса

sim3x: есть лог строк ( (int) timestamp, (char) типСобытия), и известно, что А-Б-А вызывает Й.

Написано более трёх лет назад
sim3x @sim3x

Сергей Соколов: мне или кажется или тут задача поиска подстроки в строке (подмассива в масиве)?

Написано более трёх лет назад
Сергей Соколов @sergiks Автор вопроса

sim3x: нее, тут же между действительно паттерновыми событиями может быть шум - включения тех же событий, но не попадающих в паттерн. И потом, изначально неизвестен вид паттерна – то ли это А-Б-А, то ли какойнибудь АББА. Как неизвестны и его временные параметры – то ли 50-35-5 сеекунд до события Й, то ли как-то ещё..

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science

13 месяцев

Далее
OTUS

Machine Learning. Professional

5 месяцев

Далее
Нетология

Data Scientist: расширенный курс

13 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 162 просмотра
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 192 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент.
- 186 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как повысить macro f1 в задаче классификации изображения?
- 1 подписчик
- 03 сент.
- 60 просмотров
0

ответов
Веб-разработка

+1 ещё

Простой
Какие есть ML-инструменты, которые по структуре или изображению лендинга предсказывают зоны внимания пользователей?
- 1 подписчик
- 28 авг.
- 398 просмотров
3

ответа
Видеокарты

+1 ещё

Средний
Целесообразно ли использование двух RTX 5080 для обучения нейросетей?
- 1 подписчик
- 24 авг.
- 380 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 454 просмотра
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 65 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 147 просмотров
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 305 просмотров
1

ответ
Показать ещё Загружается…

Стажер Специалист по сопровождению внутрибанковских проектов

ПСБ цифровая лаборатория • Москва

До 60 000 ₽

Data Analyst (Product, Marketing)

Горбилет • Санкт-Петербург

от 200 000 ₽

Performance Мarketing Lead

Горбилет • Санкт-Петербург

от 200 000 до 250 000 ₽

Смутно направлю вот в ету сторону https://www.google.com.ua/search?q=entity+recognit...
sim3x: жажду замечаний кого-то, кто сам решал аналогичную задачу недавно.. Списать и понять всегда приятнее, чем пройти курс, понять и написать не сразу что-то работающее )
Или у вас структурированные данные уже есть?

Если есть, то почему не посмотреть с точки зрения цепей Маркова?
sim3x: есть лог строк ( (int) timestamp, (char) типСобытия), и известно, что А-Б-А вызывает Й.
Сергей Соколов: мне или кажется или тут задача поиска подстроки в строке (подмассива в масиве)?
sim3x: нее, тут же между действительно паттерновыми событиями может быть шум - включения тех же событий, но не попадающих в паттерн. И потом, изначально неизвестен вид паттерна – то ли это А-Б-А, то ли какойнибудь АББА. Как неизвестны и его временные параметры – то ли 50-35-5 сеекунд до события Й, то ли как-то ещё..

Answer 1 · 2017-07-07 09:31:07

Похоже, нашёл: Kernel Density Estimation (KDE) – оценка плотности ядра (ядерное сглаживание). Подробнее. Для моей задачи, нужно выровнять отрезки данных по событию Й и взять наибольшие пики в KDE событий А и Б. Подбора ширины окна и ядра – отдельный вопрос.

Как находить временнЫе паттерны в данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт