Зависит от того, умеет ли программа, реализующая обучение, распараллеливаться на нодах кластера со слабой связью.
(Здесь: "кластер" = сервер, полученный объединением нод; "нода" = отдельный компьютер.)
Есть системы объединения нод в кластер на уровне ядра. Как правило, они требуют быстрого соединения с малым лагом (быстрым пингом); вплоть до того, что разговор идёт о правильном размещении компьютеров с целью сокращения длины кабелей. Серверы в разных странах - явно не то, что годится для такого метода.
Есть системы распараллеливания на уровне приложения. У каждого приложения - свои заморочки. А программу обучения Вы не назвали.