Оцените две модели, которые вы хотите сравнить между собой, на кросс-валидации. И потом сравните т-тестом для зависимых наблюдений (так как кол-во фолдов скорее всего будет небольшим (5-7), то ещё в начале проверьте полученные по cv скоры на нормальность. Например, тестом Шапиро-Уилка)
Если всего 4200 наблюдений как у топик стартера и в качестве модели используется логрег, то тут довольно быстро и легко можно провести кросс-валидацию не на 5-7 фолдов, а на значительно бОльшее количество.