Как можно предиктить дату регистрации при массиве данных?

Question

A1ikse1 @A1ikse1

Как можно предиктить дату регистрации при массиве данных?

Допустим у меня есть некоторые данные в формате:
{ id: 1, date: unixdata }
И эти данные которые у меня есть это id с датами в шаг примерно 50 000 000. И для этого есть линейная прогрессия но она не подходит из за очень больших перепад в регистрации id'шников. Также есть интерполяция но при этом погрешность при таких данных 18 часов и 37 минут. При возрастании id погрешность будет только расти.

Что можно сделать?
При этом id не может быть ниже 1

Поправлю вопрос. Есть данные пользователей с полями id и date, поле id начинается с единицы. Всего id около 1.2млрд. В моей базе данных есть информация о id1 , id50млн и так далее в шаг 50млн до id1миллиард. Мне нужно узнать дату регистрации пользователя по известным данным но при использовании методов приведённых выше погрешность имеется и при вводе самого нового id выдается некорректная дата и из-за этого код работает не правильно. Нужны идеи, при этом есть примерные данные о росте пользователей (≈80k/d-140k/d и в пике 1 год был прирост ≈320k/d, и ещё из за этого у id встречаются одинаковые даты)

Вопрос задан более года назад
198 просмотров

8 комментариев

Подписаться 1 Средний 8 комментариев

rPman @rPman

я правильно понимаю, вы пытаетесь предсказывать время исключительно по идентификатору?

Написано более года назад
A1ikse1 @A1ikse1 Автор вопроса

rPman, нет, по интерполяции через lowest и highest значениям рядом с id и у каждого id есть дата, таких значений от 1 до 1 миллиарда с шагом в 50млн и если нужно найти дату у 25млн id мы сравниваем самый маленький (id1) и самый большой (id50млн), точнее их значение (два поля id и date), и с помощью интерполяции получаем приближенное число. Получается погрешность в виде 12-18 часов из за неравномерного роста даты у id'шников

Написано более года назад
Wataru @wataru Куратор тега Алгоритмы

A1ikse1, что это за данные? Правильно ли я понимаю, что регистрация была бы в данных с id 0, но ее нет. И эти точки с даты регистрации примерно линейно падают, пропуская какие-то айдишники?

Написано более года назад
Wataru @wataru Куратор тега Алгоритмы

A1ikse1, или это даты регистраций каких-то id, и вам надо по отсутствующему id предсказать его дату?

Написано более года назад
dollar @dollar

Очень запутанный вопрос, сложно сформулирован, приходится додумывать.

Например, "дата при массиве" по идее означает единственную дату на весь массив, но из контекста следует, что дата для каждого элемента массива. И таких запутывающих моментов много. Советую переформулировать так, чтобы было чётко и однозначно.

Написано более года назад
mayton2019 @mayton2019

Если сайт - региональный то люди регистрируются в дневное время. И здесь например
анализ Фурье событий по суткам может показать наиболее вероятный пик.

Написано более года назад
Akina @Akina

Я так понимаю, что массив данных представляет монотонно возрастающую последовательность, формально колеблющуюся вокруг прямой или достаточно гладкой, почти "прямообразной", кривой. Такие последовательности очень неплохо интерполируются. Например, квадратными или кубическими сплайнами. Причём для достаточно точной интерполяции не требуется обрабатывать весь массив данных, достаточно обработать сравнительно узкое окно, погрешность интерполяции при этом возрастает незначительно.

Написано более года назад
A1ikse1 @A1ikse1 Автор вопроса

Поправил вопрос

Написано более года назад

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Карьера в IT

+1 ещё

Средний
Хочу попробовать стать системным аналитиком, с чего лучше начать и во сколько попытаться найти работу?
- 5 подписчиков
- 25 июн.
- 1084 просмотра
6

ответов
Информационная безопасность

+3 ещё

Простой
Утечка кейвордов в Телеграм при посещении постороннего сайта?
- 3 подписчика
- 03 июн.
- 325 просмотров
3

ответа
IT-образование

+2 ещё

Средний
Бизнес и системный аналитик: кто это?
- 2 подписчика
- 29 мая
- 420 просмотров
3

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 322 просмотра
0

ответов
Аналитика

Средний
DAX \ Power BI как сделать меру через промежуточную таблицу?
- 2 подписчика
- 08 апр.
- 74 просмотра
1

ответ
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 387 просмотров
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 220 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 280 просмотров
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 427 просмотров
1

ответ
Аналитика

Средний
Как структурировать работу над новым проектом в бизнес аналитике. Какая очередность у всего процесса аналитики?
- 1 подписчик
- 15 янв.
- 141 просмотр
1

ответ
Показать ещё Загружается…

я правильно понимаю, вы пытаетесь предсказывать время исключительно по идентификатору?
rPman, нет, по интерполяции через lowest и highest значениям рядом с id и у каждого id есть дата, таких значений от 1 до 1 миллиарда с шагом в 50млн и если нужно найти дату у 25млн id мы сравниваем самый маленький (id1) и самый большой (id50млн), точнее их значение (два поля id и date), и с помощью интерполяции получаем приближенное число. Получается погрешность в виде 12-18 часов из за неравномерного роста даты у id'шников
A1ikse1, что это за данные? Правильно ли я понимаю, что регистрация была бы в данных с id 0, но ее нет. И эти точки с даты регистрации примерно линейно падают, пропуская какие-то айдишники?
A1ikse1, или это даты регистраций каких-то id, и вам надо по отсутствующему id предсказать его дату?
Очень запутанный вопрос, сложно сформулирован, приходится додумывать.

Например, "дата при массиве" по идее означает единственную дату на весь массив, но из контекста следует, что дата для каждого элемента массива. И таких запутывающих моментов много. Советую переформулировать так, чтобы было чётко и однозначно.
Если сайт - региональный то люди регистрируются в дневное время. И здесь например
анализ Фурье событий по суткам может показать наиболее вероятный пик.
Я так понимаю, что массив данных представляет монотонно возрастающую последовательность, формально колеблющуюся вокруг прямой или достаточно гладкой, почти "прямообразной", кривой. Такие последовательности очень неплохо интерполируются. Например, квадратными или кубическими сплайнами. Причём для достаточно точной интерполяции не требуется обрабатывать весь массив данных, достаточно обработать сравнительно узкое окно, погрешность интерполяции при этом возрастает незначительно.

Answer 1 · 2025-07-04 08:45:23

Единственная мысль: попробуйте что-то вроде кубических сплайнов. Для первого интервала делайте квадратичную интерполяцию по 3 первым точкам. Для каждого следующего интервала - кубическую по 4 точкам (начало предыдущего интервала, этот интервал, конец следующего).
Типа если мы видим что между точками 1 и 2 много регистраций, между 3 и 4 мало, то скорее всего на текущем интервале от 2 до 3 точки идут более плотно в начале.

Но тут может быть косяк: кубическая интерполяция может дать и отрицательное приращение дат. Тогда текущий отрезок надо сделать линейно или квадратично.

Как можно предиктить дату регистрации при массиве данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт