Ibp
Да все это, все эти тесты, это на самом деле вопрос творчества и внутреннего чутья, ибо не существует генерального плана или фреймворка, как лучше выбрать лучший алгоритм используя статистические методы: результат лишь показывает насколько вероятно данные выборки могут наблюдаться если гипотеза верна (нулевая), а не насколько гипотеза верна на данной выборке. Так что всегда существует вероятность, иногда близкая к нулевой, что на реальных данных, "лучший алгоритм" покажет не лучший результат.
Но неплохо было бы ознакомиться с эмпирическими результатами сначала, все же, скажем их MIT или Стэнфорда, а потом применять. Ну вот по тем же бутстрап подвыборкам и их степени независимости, вот я о чем.