inference в общем случае достаточно легковесен, его регулярно делают на клиентах, но можно опять же на gpu на серверной части ранать если нужно большой поток обрабатывать
если inference можно куда-то еще отдать а новая модель тренируется не так часто никто не мешает у того же амазона брать gpu instances on-demand или scheduled reserved
такая карта в ai бенчмарках выдает 35000 попугаев. Intel Xeon Gold 6148 в котором 20 физических ядер на том же тесте выдает 4000 попугаев. т.е. в целом одна карточка условно эквивалентна 160 физическим ядрам
такая карта в ai бенчмарках выдает 35000 попугаев. Intel Xeon Gold 6148 в котором 20 физических ядер на том же тесте выдает 4000 попугаев. т.е. в целом одна карточка условно эквивалентна 160 физическим ядрам