Задать вопрос

Олег Петров @Smeilz1

За любое развитие

python

Как сохраняется стратегия в reinforcement learning?

Разбираю код программы https://github.com/Smeilz/Tic-Tac-Toe-Reinforcemen...

Что я понял?
В программе есть 2 модуля.
Qlearning.py - отвечает за обучение агентов и сохранение результата обучения
Game.py - описывает процесс игры

Вопрос как именно Qlearning делает сохранение стратегии?
1) В Train.py есть строка
game.saveStates()

2) Она ссылается на функцию в модуле game.py

def saveStates(self):
        self.player1.saveQtable("player1states")
        self.player2.saveQtable("player2states")

3)Далее эта функция ссылается на экземпляр Player1 и Player2 и функцию saveQtable в модуле QLearning.py

def saveQtable(self,file_name):  #save table
        with open(file_name, 'wb') as handle:
            pickle.dump(self.Q, handle, protocol=pickle.HIGHEST_PROTOCOL)

----------------------------------------------------
В итоге как я понимаю программа сохраняет стратегию, которая получена в результате тренировки, как поток байтов и при загрузке его декодирует обратно.

Вопросы.
1)Как именно сохраняется стратегия? Какая у нее структура? Что в данном случае сохранит параметр self?
2)Можно ли изменить код, чтобы сохранить ее в файл в читаемом виде и посмотреть формат?
3)Как сохранить тоже самое в Xml?

Заранее спасибо

Вопрос задан более трёх лет назад
117 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 197 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 235 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 155 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 127 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 255 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 141 просмотр
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 142 просмотра
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 146 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 263 просмотра
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 431 просмотр
1

ответ
Показать ещё Загружается…

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽