Если очень грубо, то чтобы обучать сетку, нужен размер, памяти чтобы модель полностью влезла в память и умножить это на три. Это должна быть память одного GPU.
Складывать память нескольких GPU. В общем случае - это боль.
Если совсем упрощенно - то одна 3090 лучше чем две 4060.
Иногда некоторые этапы лучше оффлоадить на CPU. А в двухпроцессорной системе надо ещё и внимательно настраивать numa.
Иначе будет как у сотен людей, что с половиной ядер инференс идёт быстрее чем со всеми ядрами.
В общем - в данное время самое узкое место это время которое тратится на обмен с памятью.