Можно предположить что я использую библиотеку gymnasium с тега и догадаться что генетический аглггоритм реализован с помощу deap. Я был на двух картах таккие как: Mountain-Car и CartPole. На них у меня все получилось и все было ОК. Но на Pendulum я столкнулся с такой проблемой, Нс в основном или брала тактику крутится как сумошедшая или стабилить себя не на верху а в низу, ну и были те которые делали полную дич. Ну и к дополнению я вывел интерестний ген который стараэться в адыкватных мерах розкрутить сеья в любую сторону, юзая крутой момент, и даже иногда на секунду зависать на верху. Но не суть дела, в основном она не учиться и я догадиваюсь что это изза вознагрождения, потомучто оно в основе отрицательное, но я могу ошибаться. Нейронка у меня написана в другом файле на либе numpy, все слои используют функцию активации ReLu а последний слой юзает Гиперболический тангенс от -2 до 2 . Можите пожалуйста посмотреть код и сказать в каком моменте я допустил полную дич!?
Вот
код!