Какой из алгоритмов подойдет лучше всего для предикшена потребления электроэнергии?

Question

Therapyx @Therapyx

Data Science

Какой из алгоритмов подойдет лучше всего для предикшена потребления электроэнергии?

Недавно появилась потребность в машинном обучении и тренировки модели для уже имеющихся исторических данных, так как входных параметров уж слишком много.

В кратце суть (сокращено): на входе есть
- время суток (24ч в цикле)
- выходной - не выходной (по полной дате)
- куча приборов с кол-вом потребления энергии (цифры)
- И такие параметры как охлаждение/проветривание в помощении.

на выходе нужно сделать предикшен скажем "общего" потребления энергии всех машин вместе в зависимости от времени суток и других параметров. (этакая экстраполяция, основываясь на многих десятках параметров).
- В общем все алгоритмы тема обширная и все подрят учить и разбирать будет наверно не рационально, поэтому хотел спросить, какие алгоритмы подойдут именно под этот тип задачи? (дабы сузить этот круг :)
Пока-что из того, что разобрал более менее склоняюсь в сторону Desicion Tree и Recurrent Neural Networks.

Вопрос задан более трёх лет назад
611 просмотров

13 комментариев

Подписаться 4 Простой 13 комментариев

Дмитрий @LazyTalent

А зачем учить их все, если в том же scikit-learn для python, можно просто поменять одну строчку кода, чтобы использовать др. алгоритм?

Написано более трёх лет назад
sim3x @sim3x

А какая история накоплена?

Написано более трёх лет назад
Andrey Dugin @adugin

Почему именно Recurrent Neural Networks? Где тут временной ряд?

Написано более трёх лет назад
Therapyx @Therapyx Автор вопроса

sim3x, любая нужная будет)

Написано более трёх лет назад
Therapyx @Therapyx Автор вопроса

Ребят, я не профи в этих делах, я задал вопрос, а не пришел все таки отвечать сюда на неизвестную мне почти тематику по типу "в том же scikit-learn"...
п.с. использую Knime - иначе никак.

Написано более трёх лет назад
sim3x @sim3x

Therapyx, тогда все очень просто

Статистика за 25 лет использования
Подход - сопоставляем неделя к неделе, устредняем показатели, получаем результат

Написано более трёх лет назад
Therapyx @Therapyx Автор вопроса

sim3x, ну за 25 перебор ) скажем так с этого момента парсить данные каждые 10 милисекунд на протяжении недели-месяца))
Но у меня же конкретный вопрос... Есть конкретная задача, данные и цель: Какие алгоритмы машинного обучения подойдут наилучшим образом для этой задачи? А дальше я уж сам :)

Написано более трёх лет назад
Therapyx @Therapyx Автор вопроса

sim3x, Если интересно, цель: В зависимости от стоимости электричества, накопленных запасов и потребления этого электричества приборами основываясь на "часах дня", т.е. сами понимаете, нагрузка производства к примеру с 10 до 17 может быть пиковой, с 7-10 средней, с 17-22 средней, а с 22-7 вообще ближе к нулю. И вот на таких данных машина должна понять, когда и где можно оптимизировать нагрузки на основе переизбытка или нехватки, а так же стоимости электричества.
Там есть люди еще, кто этим занимается в серьез, моя задача скажем начальная, на уровне прототипов и рисерча хД

Написано более трёх лет назад
sim3x @sim3x

Therapyx, вам нужна стата, за более чем 2 года с детализацией максимум 1 сек (1 минута - ок)

ML не делает волшебства, а без понимания, как он работает - ML вообще не даст достоверного результата

Если задача, состоит в том, что нужно втиснуть оборудование на 20кВт в линию на 10 кВт - то прощее ее решить покупкой еще одной линии елетро передач или газогенератором

потребления этого электричества приборами основываясь на "часах дня",

Нет, нагрузка формируется заказом
Нет заказа - нет нагрузки
Есть один заказ - он потребляет одит набор приборов, другой заказ - другой

Написано более трёх лет назад
Therapyx @Therapyx Автор вопроса

Нет, нагрузка формируется заказом
Нет заказа - нет нагрузки
Есть один заказ - он потребляет одит набор приборов, другой заказ - другой

Именно так сейчас это работает. И именно поэтому сейчас начался этот проект. => идем в будущее. Изменения))

А к сути: 2 года... Почему так много? Я понимаю, что волшебства нету, но судя по тому, что я пока-что читал, я не заметил такого упора, что на кластеры или создание каких-либо статистик нужны такие огромные данные. Да - чем больше, тем лучше. Но 2 года по 1 секунде на одни и теже циклы, где по сути нету огромных различий и даже при желании и большом времени можно было бы сделать и в ручную, но это мне пришлось бы сидеть месяц и вообще детально разбирать данные на каждую мелоч в идеальное понимание.
Мне пока-что больше всего понравился Desicion Tree, очень легкий и понятный алгоритм, схожий с традиционными подходами. Но не думаю, что это будет наилучшим решением для Экстраполяционных методов прогнозирования в машиннов обучении. <- и именно этот момент меня интерисует.
Какой алгоритм и почему он подойдет для этой задачи наилучшим образом, собственно и все :)

Написано более трёх лет назад
Therapyx @Therapyx Автор вопроса

sim3x, и да 2 года по минуте = 1051200 строк. 2 года по секунде = 63072000. 1 месяц по 10 милисекунд = 259200000. То есть по вашему высказыванию, если сравнивать с минутами, то достаточно захвата данных где-то за 2 недели, но да ладно - это вторичное, так что лучше закрыть эту тему :D Если будет надо, достану, симулирую создам, дублирую. В Общем достану нужное кол-во

Написано более трёх лет назад
sim3x @sim3x

Therapyx,
2 года... Почему так много?
мало. Для того чтоб хоть примерно понять тренд нужно два года, а для построения чего-то похожего на предсказание 4+ года

такие огромные данные
где вы увидели что-то похожее на "огромность"?

Но 2 года по 1 секунде на одни и теже циклы

максимум 1 сек (1 минута - ок)

одни и теже циклы
Если есть уверенность в таком утверждении, то никакие алгоритмы не нужны, ведь одни и теже циклы решаются без ML

Если будет надо, достану, симулирую создам, дублирую.
и решите мифическую задачу

Написано более трёх лет назад
Therapyx @Therapyx Автор вопроса

sim3x, что понимать? Если машина классифицирует, что параметры 1...N имею определенные значения для выходного параметра на предикшен, то новые(неизвестные) должны классифицироваться просто в нужные полочки, ведь новые значения будут иметь не основной % "правильности". Это все же машинное "обучение".
Почти все, что читаю сейчас в книгах и англ научных работах как-то отличается от здешних высказываний.
Но опять же вы затронули тему, которую я специально попросил даже закрыть, ибо я знал - что речь пойдет о ней, а она "не важна", 0 смысла.
Единственное, что меня интерисует в моем вопросе - это применение алгоритмов под такой род задач = все. Больше ничего) Вы знаете алгоритмы?)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

5 комментариев

Therapyx @Therapyx Автор вопроса

да по сути я бы с радостью. Ибо раньше именно этим и занимался. А так - я всего-лишь студент под руководством начальника, который под руководством еще многих верхушек и в целом под задачи этого проекта еще 5 других фирм. И вот щяс мне дали щяс конкретную задачу - сделать тестовые прототипы моделей с тестовыми данными, которые можно будет потом перенести под основные.
Для этого надо понять и разобрать основные алгоритмы ML ну и потренится в knim'e. 2е я уже сделал и разобрал что к чему. А вот первое не такая уж и узкая задача. Чтобы найти наилучшее решение, надо проштудировать все от и до, а это затратно по времени. Так что просто хочу сократить область "исследований".
Поэтому опять же конкретный вопрос, какой из алгоритмов машинного обучения подойдет лучше всего под эту задачу и почему?) - остальное уже за мной. Мне это в любом случае еще надо будет для универа и научной работы разбирать и учить углубленно.

Написано более трёх лет назад
Сергей @begemot_sun

Да любой который вам подойдет. нет серебряной пули.
Если вам нужно увязать кучу параметров, но я вижу только НС как черный ящик.
Лес деревьев решений тоже возможен, но это уже более детерминированно и понятно.

Да возьмите вообще аппроксимацию многочленами в многомерном пространстве, это как раз ваше.

Возьмите еще что нить из марковских цепей.
Скажем ваше потребление это случайная блуждающая величина (что на самом деле так и есть).
Вы можете вычислить вероятности (или плотности вероятностей) перехода этой величины из одного значения в другое, ну а далее проводите вычислительный (или расчетный) эксперимент, где вычисляете (экспериментально или расчетно) плотности вероятности перехода из текущего в будущее значение (через N шагов), т.о. вы можете говорить о какой-то самой вероятной величине этого потребления.

Написано более трёх лет назад
Therapyx @Therapyx Автор вопроса

Сергей, эх
у меня пока-что выбор между Деревом, наив бейсом, SVM и нейронными сетями. Это то, что кнайм реализует в полной мере для PMML моделей.

Написано более трёх лет назад
Сергей @begemot_sun

Я думаю вам нужна книжка про модели, почитаете - определитесь.
На худой конец, вы можете запустить расчеты для всех которые вам доступны, выбрать лучший и уже заниматься с ним улучшением результатов.

Написано более трёх лет назад
Therapyx @Therapyx Автор вопроса

Сергей, нашел не плохой тест - ellisp.github.io/blog/2016/12/10/extrapolation, деревья думаю отпадают сразу в таком варианте... )

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 163 просмотра
3

ответа
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 245 просмотров
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 134 просмотра
3

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 149 просмотров
1

ответ
Аналитика

+1 ещё

Средний
Как быстро локализовать в логах источник изменений метрики?
- 1 подписчик
- 30 июн.
- 86 просмотров
0

ответов
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 278 просмотров
3

ответа
Компьютерные сети

+1 ещё

Простой
Как построить топологию сетей (данные в FDB таблице) когда связи замкнуты в кольцо?
- 2 подписчика
- 25 июн.
- 474 просмотра
2

ответа
Алгоритмы

Средний
Какие переходы для ДП у «Гелифиш и незабудка» codeforce?
- 1 подписчик
- 12 июн.
- 89 просмотров
1

ответ
C#

+1 ещё

Простой
Почему неправильно работает Keeloq?
- 1 подписчик
- 05 июн.
- 123 просмотра
1

ответ
Показать ещё Загружается…

Разработчик бэкенда в команду коммуникационной платформы

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик бэкенда сервисов телефонии

Яндекс • Москва

от 300 000 до 490 000 ₽

А зачем учить их все, если в том же scikit-learn для python, можно просто поменять одну строчку кода, чтобы использовать др. алгоритм?
Почему именно Recurrent Neural Networks? Где тут временной ряд?
Ребят, я не профи в этих делах, я задал вопрос, а не пришел все таки отвечать сюда на неизвестную мне почти тематику по типу "в том же scikit-learn"...
п.с. использую Knime - иначе никак.
Therapyx, тогда все очень просто

Статистика за 25 лет использования
Подход - сопоставляем неделя к неделе, устредняем показатели, получаем результат
sim3x, ну за 25 перебор ) скажем так с этого момента парсить данные каждые 10 милисекунд на протяжении недели-месяца))
Но у меня же конкретный вопрос... Есть конкретная задача, данные и цель: Какие алгоритмы машинного обучения подойдут наилучшим образом для этой задачи? А дальше я уж сам :)
sim3x, Если интересно, цель: В зависимости от стоимости электричества, накопленных запасов и потребления этого электричества приборами основываясь на "часах дня", т.е. сами понимаете, нагрузка производства к примеру с 10 до 17 может быть пиковой, с 7-10 средней, с 17-22 средней, а с 22-7 вообще ближе к нулю. И вот на таких данных машина должна понять, когда и где можно оптимизировать нагрузки на основе переизбытка или нехватки, а так же стоимости электричества.
Там есть люди еще, кто этим занимается в серьез, моя задача скажем начальная, на уровне прототипов и рисерча хД
Therapyx, вам нужна стата, за более чем 2 года с детализацией максимум 1 сек (1 минута - ок)

ML не делает волшебства, а без понимания, как он работает - ML вообще не даст достоверного результата

Если задача, состоит в том, что нужно втиснуть оборудование на 20кВт в линию на 10 кВт - то прощее ее решить покупкой еще одной линии елетро передач или газогенератором

потребления этого электричества приборами основываясь на "часах дня",

Нет, нагрузка формируется заказом
Нет заказа - нет нагрузки
Есть один заказ - он потребляет одит набор приборов, другой заказ - другой
Нет, нагрузка формируется заказом
Нет заказа - нет нагрузки
Есть один заказ - он потребляет одит набор приборов, другой заказ - другой

Именно так сейчас это работает. И именно поэтому сейчас начался этот проект. => идем в будущее. Изменения))

А к сути: 2 года... Почему так много? Я понимаю, что волшебства нету, но судя по тому, что я пока-что читал, я не заметил такого упора, что на кластеры или создание каких-либо статистик нужны такие огромные данные. Да - чем больше, тем лучше. Но 2 года по 1 секунде на одни и теже циклы, где по сути нету огромных различий и даже при желании и большом времени можно было бы сделать и в ручную, но это мне пришлось бы сидеть месяц и вообще детально разбирать данные на каждую мелоч в идеальное понимание.
Мне пока-что больше всего понравился Desicion Tree, очень легкий и понятный алгоритм, схожий с традиционными подходами. Но не думаю, что это будет наилучшим решением для Экстраполяционных методов прогнозирования в машиннов обучении. <- и именно этот момент меня интерисует.
Какой алгоритм и почему он подойдет для этой задачи наилучшим образом, собственно и все :)
sim3x, и да 2 года по минуте = 1051200 строк. 2 года по секунде = 63072000. 1 месяц по 10 милисекунд = 259200000. То есть по вашему высказыванию, если сравнивать с минутами, то достаточно захвата данных где-то за 2 недели, но да ладно - это вторичное, так что лучше закрыть эту тему :D Если будет надо, достану, симулирую создам, дублирую. В Общем достану нужное кол-во
Therapyx,
2 года... Почему так много?
мало. Для того чтоб хоть примерно понять тренд нужно два года, а для построения чего-то похожего на предсказание 4+ года

такие огромные данные
где вы увидели что-то похожее на "огромность"?

Но 2 года по 1 секунде на одни и теже циклы

максимум 1 сек (1 минута - ок)

одни и теже циклы
Если есть уверенность в таком утверждении, то никакие алгоритмы не нужны, ведь одни и теже циклы решаются без ML

Если будет надо, достану, симулирую создам, дублирую.
и решите мифическую задачу
sim3x, что понимать? Если машина классифицирует, что параметры 1...N имею определенные значения для выходного параметра на предикшен, то новые(неизвестные) должны классифицироваться просто в нужные полочки, ведь новые значения будут иметь не основной % "правильности". Это все же машинное "обучение".
Почти все, что читаю сейчас в книгах и англ научных работах как-то отличается от здешних высказываний.
Но опять же вы затронули тему, которую я специально попросил даже закрыть, ибо я знал - что речь пойдет о ней, а она "не важна", 0 смысла.
Единственное, что меня интерисует в моем вопросе - это применение алгоритмов под такой род задач = все. Больше ничего) Вы знаете алгоритмы?)

Answer 1 · 2017-11-08 21:45:02

Возьмите xgboost.XGBRegressor, обучайте на подвыборке за все предыдущие дни для каждого часа отдельно. В качестве метрики качества можете рассмотреть MSE или MAE.

Качество будет приличное, думать много не надо.

Решение похожей задачи: https://youtu.be/nZdeB6QI9Vw

PS: Градиентный бустинг, который реализован в xgboost, это последовательное добавление решающих деревьев в композицию, с подкручиванием весов объектов на каждом шаге таким образом, чтобы каждое следующее дерево (estimator в терминах xgboost) наилучшим образом учитывало ошибки всей композиции на предыдущем шаге.

Answer 2 · 2017-11-08 13:58:33

Вообще все эти модные нейронные сети всего лишь черный ящик.
Я бы на вашем месте построил адекватную математическую модель процессов, с учетом всех параметров.
Далее в этой модели есть некоторые неизвестные параметры: A,B,C- вот тут путем мат аппроксимации\интерполяции вам необходимо их найти, путем подгонки модели к действительности.
Далее вы берете любые входные параметры, и получаете результат модели на них.
Т.о. как вы их зададиде (экстраполируете), так и результат выйдет.
Обычно проще экстраполировать некий вход, чем уже готовый выход.

Экстраполяция входа будет сродни техническому анализу в биржевой торговле. Т.е. вы берете ряд. Берете оконную функцию и дрессируете сеть на предсказывание следующего значения на основании окна.
Дальше подаете входы на модель, получаете выходы модели.

Вы, конечно, можете натренировать НС напрямую без модели, но это может быть достаточно затратно по времени и вычислительным мощностям. И не факт что вы придете к какому-то значимому результату таким образом.

Какой из алгоритмов подойдет лучше всего для предикшена потребления электроэнергии?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт