Как написать или в каком направлении копать алгоритм на C++?

Question

Leonid Fedotov @iLeonidze

xbooster.ru

Как написать или в каком направлении копать алгоритм на C++?

Есть большой массив данных, причём их можно хранить в любом виде, как и в TXT-файле, так и в MySQL-базе для скорости. Данные являются ежеминутными измерениями и выглядят вот так:
15.02.2016/18:49 13
15.02.2016/18:48 10
15.02.2016/18:47 11
15.02.2016/18:46 9
15.02.2016/18:45 27
...и так далее, отсортировано по дате записи, в порядке убывания

Необходимо найти похожие последовательности из ранее сохранённых данных, причём в данном случае последовательностью понимается более двух записей подряд и чем лучше совпадение, тем качественнее оно считается. Похожестью должно быть не 100% совпадение, но при этом коэффициент схожести должен максимально большим.
Возможно несколько сумбурно, написано, готов ответить на комментарии

Вопрос задан более трёх лет назад
255 просмотров

2 комментария

Подписаться 1 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++

12 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unreal Engine + ИИ

9 месяцев

Далее
Stepik

Профессия: Разработчик C++ (Junior)

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 4 часа назад
- 40 просмотров
1

ответ
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 1 подписчик
- 20 часов назад
- 47 просмотров
1

ответ
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 93 просмотра
1

ответ
C++

Сложный
Концепт проверки совместимости с шаблонным конструктором?
- 1 подписчик
- 25 июн.
- 92 просмотра
1

ответ
C++

Простой
Я единственный у кого cppreference.com через раз падает с ERR_TIMED_OUT?
- 1 подписчик
- 21 июн.
- 174 просмотра
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 105 просмотров
1

ответ
C++

+3 ещё

Простой
Почему бинарник скомпилированный через CMake весит больше, чем напрямую скомпилированный через clang++?
- 1 подписчик
- 11 июн.
- 316 просмотров
1

ответ
C++

+2 ещё

Простой
Как настроить clangd на видимость всех файлов, чтобы не указывать относительные пути в include?
- 1 подписчик
- 10 июн.
- 102 просмотра
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1306 просмотров
10

ответов
C++

+1 ещё

Простой
В Терминал С++ выводятся неизвестные символы?
- 1 подписчик
- 05 июн.
- 184 просмотра
3

ответа
Показать ещё Загружается…

Большой массив это сколько? Линейный поиск не устраивает? Длина последовательности?
tsarevfs: длина - несколько десятков миллионов записей (записи ведутся аж с 2000 года). Длина последовательности произвольная, но чем больше, тем лучше. Линейный поиск - думал, но как реализовать "похожесть", то есть вероятность небольшого отклонения, но в целом значения похожие?

Answer 1 · 2016-02-17 07:22:32

Алгоримт. По сути там среднеквадратическое отклонение используется.

Только вам придется писать цикл типа:

for count = минимальное количество данних для кореляции
    to максимальное количество данних для кореляции
  for i = 0 to length(DataArray) - count
    correlationList.append(caclCorrelation(DataArray, i, count)

Что бы найти найболее подобною последовательность.

Для оптимизации можно на первом этапе выбросить большую часть даних. (ака метод Монте-Карло). Обычно достаточно и 2% даних.
А на втором этапе (когда у тебе уже будут "правильные" диапазоны) уже все даные посмотреть.

Один из методов считания уровня ошибки это имерить в 2 разы точнее — разница межну измерениями и будет оценкой уровня ошибки.
т. е. можна сделать алгоритм типа:

dataCountCoeficient = 0.001 // 0.1%
needAccuracy = 0.01 // 1%
oldResult = calcCorrelation(dataCountCoeficient / 2);
newResult = calcCorrelation(dataCountCoeficient)
while Abs(oldResult - newResult) / Max(Abs(OldResult), Abs(NewResult)) > needAccuracy do
  dataCountCoeficient *= 2
  oldResult = newResult
  newResult = calcCorrelation(dataCoutCoeficient)

Как написать или в каком направлении копать алгоритм на C++?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт