atsanRickman1996, Ну так ошибка не изменилась. Я же вам объяснил, что вы работает с интерфейсом, а не с массивами напрямую. Возьмите рабочий пример, и попытайтесь имея рабочий пример, изменяя данные получить по смыслу такую же ошибку. ValueError: operands could not be broadcast together with shapes, цифры не важны, потом верните обратно, так начнете понимать, что к чему. Все что мог я объяснил, у меня нету интерфейса вашего.
atsanRickman1996, Разрешение, это еще не размерности массива. Когда происходят операции между массивами то либо количество элементов в одном массиве, равно количеству элементов в другом массиве, либо должен применится bradcasting. У вас где то есть массив 720 на 406, просто таблицу представьте с 720 рядами и 406 колонками и вы пытаетесь произвести операцию с массивом в 400 элементов. Не по одному измерению они не совпадают, такие операции не возможны.
atsanRickman1996, первое это 400. Там должно быть либо 720 либо 406. Но тут это гадания возможно. второй массив должен быть вида (1, 406). Но 400 там точно быть не может. Потому что оперция между массивами не возможна. А вот какие размерности, в точности это еще зависит от какая конкретно операция там происходит. Но 400 там быть не может.
Евгений Лернер, Ваш вопрос был общий и я дал на него общий ответ. Если речь идет об временной последовательности, то это частности. И у библиотек на которых все это дело реализуется имеются отдельные сплиттеры для временной последовательности. Вообще в ML работа с временной последовательностью это отдельное направление.
Евгений Лернер, Да, но это частности, например AIC - используется если данные временная последовательность. Но это различные регуляризации добавление (penalty) при увеличении (complexity). Как таковые к resampling methods они отношения не имеют. Это больше вспомогательные метрики, для сравнения моделей.
N T, Ну это ошибка ушла, надо глянуть пишет ли в базу так как ты ожидаешь. Может быть пишет, а может надо будет с датафреймом поработать. Ну это если что решается на уровне pandas и отдельным вопросом, тогда.
Нигде не ошибся, можешь симуляцию сделать, как в аптеке будет. Наборы наши обычные сеты без порядка, потому что в нужном порядке мы их сами расставим, так что абсолютно верное решение.
Александр Скуснов, При чем здесь PyTorch это библиотека которая предоставляет API для работы нейронными сетями. А вот оптимизация всегда при чем. будь то нейронные сети или классические алгоритмы машинного обучения, Различные функции оптимизации используются в том числе и нейронных сетях. Так вот такого что функция которую необходимо оптимизировать всегда дифференцируема, НЕТ. Потом везде где необходимо оптимизировать например относительно сочетания оптимальных параметров там вообще ГА очень хороший кандидат.
Евгений Лернер, Ну я подозреваю, что в целом существует много разных имплементаций, надо открывать документации и читать, что как сделано и какими математическими свойствами обладает. Метод Ньютона помню такой на практике не используется конечно, там обязательно должен существовать вторая производная , а вот сопряженные градиенты прямо сейчас в голову не приходят, надо гуглить и смотреть что это.
В любом случае было интересно пообщаться, непосредственно алгоритмы оптимизации не мой профиль, я использую их но в деталях с ними не работаю, я все таки аналитик. Спасибо за беседу.
Евгений Лернер, Что вы имеете ввиду под методами второго порядка? Тут столько различных терминологий и техник, что надо все уточнять. Я так понимаю речь о тесте производной второго порядка на экстремумы.
Нет такого что все функции дифференцируемы, алгоритмы оптимизации имеют даже классификацию. derivative free methods для оптимизаций не дифференцируемых функций.
Евгений Лернер, Ну в целом обычный градиент это дело такое "в качестве обучающего алгоритма оптимизации". На практике используют стохастический потому что он не видит весь датасет то есть намного быстрее. Но дело не только в этом вы правильно уловили мысль, если у нас много локальных экстремумов, если походы к экстремумам не плавные то стохастический имеет больше шансов найти глобальный потому что ну упрощенно говоря стартовых точек у нас несколько от которых он начинает двигаться в стороны экстремума.
Adam ну в первую очередь это расширение для стохастического градиента с основным различием что у него ну например отдельный шаг обучения для каждого параметра, потом он их трансформирует в экспонентнтую среднюю скользящую градиента и квадрат градиента. В общем не буду пытаться сделать то что лучше написано в различных руководствах по нему. Но основной сейчас он. А обычный градиентный спуск это сугубо для студентов.
Евгений Лернер, кто вам сказал что генетические алгоритмы наиболее применимы? Они применяются в частном случае, когда надо оптимизировать на дискретных структурах. Стохастический градиент прекрасно различает локальные экстремумы и глобальные особенно на дифференцируемых функциях . А если мы будем говорить о нейронках то там вообще Adam используется как правило.
Евгений Петряев, Ну море их гугли pde example и вперед. PDE - partial differential equations (2 и более переменных). ODE - ordinary differential equations (одна переменная). 99 из них будут для производной первого порядка потому что решать уравнение для второго порядка тоска и тревога.
Евгений Петряев, pdsolve - partial derivative solver. То есть решает для функции с более чем одной переменной. И решает он только для производной первого порядка.
Ты уже, как то задавал вопрос такой. pdsolve не умеет решать производную второго порядка. sympy умеет решать для производных второго порядка только для одной переменной.