Во многих демонстрационных видео по нейронным сетям показывают последовательный процесс обучения сети, в них наглядно видно как с каждой новой итерацией модель постепенно начинает принимать более-менее ожидаемые решения.
Я изучаю тему, мне интересно, написал уже несколько моделей, которые работают, делают то что от них требуется: одна RNN модель с задачей классификации текста, вторая основана на Keras DQNAgent - она играет в простенькую игрушку.
Каждая из этих моделей обучалась по своему: для первой было подготовлено 3 миллиона текстов, вторая просто играла сама в свою игру в течении 50 000 итераций.
Теперь вопрос: как тренировать сеть именно по шагам? Не делая model.fit на огромном наборе данных, или оставлять еë на 50к циклов "самообразования", а выполнять каждый шаг непосредственно с человеком?
Пусть для примера это будет DQNAgent. Запускается новый цикл игры в понг и оппонент у этой сети - человек, и в процессе игры с человеком сеть должна обучаться.