Завит от устройства на котором будешь обучать.
Размер обучайющей выборки обычно не сильно влияет, тк её можно делать частями, а вот модель может жрать значительно. Например на видео карке где процессы распараллеливаются - для вычеслений участки модели дублируются в памяти. Для процессора распараллеливание происходит в меньшей степени и потому модель меньше занимает данных. Дублирование данных модели необходимо потому что модель в памяти должна быть неизменна на протяжении всего процесса обучения, а вот то какими пачками ты будешь обучать модель уже меньше влияет на размер резервированной памяти