1. Если обучение будет происходить в онлайн-режиме (человек играет, а бот паралелльно обучается на получаемых данных), то наверняка обучение придется проводить ооочень долго, чтобы бот хоть чему-нибудь научился.
2. Думаю, от характера карты может сильно зависеть алгоритм - или это лабиринт, или это открытая местность с участками, запрещенными для движения.
3. Вообще, задача поиска пути - это довольно простая проблема. Если вся карта известна, то она решается и без всяких нейронных сетей - например, А*. Может быть, есть какие-то варианты алгоритмов и для частично наблюдаемых сред.