А любой тест предполагающий независимость будет нехорош, да
То есть, формально, для проверки гипотез о равенство средних значений метрик на тесте для двух разных моделей (корректные, гипотез о равном качестве моделей на тесте) с использованием repeated stratified k fold класс непараметрических критериев должен подходить, правильно я понимаю? К примеру, Манна-Уитни или перестановочный критерий. Ну, и как вами отмечалось выше, ещё и бутстрап дов интервалы дополнительно можно сравнить для двух моделей, посмотреть, нет ли пересечения.