Как использовать алгоритм Rainforce с отрицательными наградами?

Question

HitGirl @HitGirl

Как использовать алгоритм Rainforce с отрицательными наградами?

Здравствуйте!
Пытаюсь реализовать торгового бота, используя алгоритм Rainforce. Агент может вернуть отрицательную награду за действие (торговля в убыток). Как модифицировать алгоритм Rainforce, чтобы он это учитывал?
Я пробовал добавлять к награде (r) фиксированное положительное число, но даже в этом случае агент не обучается.

def _calculateDiscountedReturns(self, rewards):
        print("Min",min([r for r in rewards if r < 0]))
        # получаем сумму наград
        discountedReturns = []
        for t in range(len(rewards)):
            G = 0.0
            for k, r in enumerate(rewards[t:]):
                G += (self.gamma ** k) * (r+100)


            discountedReturns.append(G)

        return discountedReturns

    def train(self, states, actions, rewards):
        # print(states, actions, rewards)
        discountedReturns = self._calculateDiscountedReturns(rewards)
        # обучаем нейронную сеть
        for state, action, G in zip(states, actions, discountedReturns):
            # вероятности
            probs = self.PN(state)
            # категориальное распределение
            dist = torch.distributions.Categorical(probs=probs)
            # возвращает логарифм от вероятности переданного действия
            
            log_prob = dist.log_prob(action)

            # # функция потерь
            loss = - log_prob * G


            # обновляем веса модели
            self.optimizer.zero_grad()
            loss.backward()
            self.optimizer.step()

Вопрос задан более двух лет назад
80 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
На каком языке пишут описание функций в Python?
- 1 подписчик
- вчера
- 211 просмотров
3

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 217 просмотров
0

ответов
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 4 подписчика
- 22 сент.
- 881 просмотр
5

ответов
Нейронные сети

Простой
Отечественные нейронки для кодинга и не только сентябрь 2025?
- 1 подписчик
- 22 сент.
- 186 просмотров
3

ответа
Нейронные сети

Простой
Какая AI модель дешевле в пересчете на решение задачи в программировании?
- 1 подписчик
- 21 сент.
- 242 просмотра
3

ответа
Нейронные сети

Простой
Как настроить оркестрацию вайбкодинга?
- 2 подписчика
- 21 сент.
- 375 просмотров
3

ответа
3D

+2 ещё

Средний
Cуществует ли софт для генерации трёхмерного (если нет — двухмерного) видео говорящего какой-либо заданный текст человека?
- 1 подписчик
- 20 сент.
- 77 просмотров
1

ответ
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 167 просмотров
1

ответ
Python

Простой
Как парсить pdf-ки с вк с помощью Python?
- 1 подписчик
- 16 сент.
- 318 просмотров
1

ответ
Python

+1 ещё

Простой
Почему возникает синтаксическая ошибка: invalid decimal literal?
- 1 подписчик
- 15 сент.
- 167 просмотров
2

ответа
Показать ещё Загружается…

Python developer

Digital Clouds

от 160 000 ₽

Python разработчик

Selecty

от 280 000 до 380 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

И почему вы решили, что он это не учитывает?
Если loss отрицательный, то градиенты, вычисленные с помощью метода loss.backward(), будут направлены в сторону увеличения значения функции потерь. Это означает, что при обновлении параметров модели с помощью оптимизатора, значения параметров будут изменяться в направлении увеличения значения функции потерь, что может привести к ухудшению качества модели. Поэтому обычно используются функции потерь, которые имеют положительные значения и направлены на минимизацию ошибки модели. (ChatGPT)

Answer 1 · 2023-03-29 20:40:09

Александр Скуснов @AlexSku

не буду отвечать из-за модератора

Примеры реализации Reinforcement Learning: плейлист

Ответ написан более двух лет назад

2 комментария

Как использовать алгоритм Rainforce с отрицательными наградами?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт