A
С этим пытаются бороться, и одной из таких попыток стал алгоритм ZeRO-Offload, который позволяет натренировать мульти-миллиардную модель на одном GPU (!) без изменения модели. Похоже, основной инсайт там в дополнительном полноценном использовании мощностей CPU.