Очень многие джобы в рамках приложения мы запускаем именно так. Джобы условно независимые, записывают свои данные в разные папки, содержимое папок потом перемещается (после обработки, на драйвере вызывается fileSystem.rename()), сессия используется одна, количество джобов в каждый момент времени ограничено. Используем только FIFO scheduling, FAIR не применяем. Тоже клаудера. Ошибок с файловой системой никогда не было.
Ошибка «failed to fetch shuffle block», как мне кажется, возникает из-за того, что на некоторых нодах возникают проблемы с локальной файловой системой. Надо смотреть, не остаётся ли на нодах лишних процессов и как yarn настроен. Подробнее подсказать не могу
Могу кинуть ссылку на сниппет в скасти, как сделано ограничение количества запускаемых джобов. Но у нас были проблемы, только когда их создавались сотни одновременно, поэтому и решили ограничивать