... это на stdev можно не особо смотреть, потому что outliers, и на mean делать поправку. а time который оно репортит учитывает это. если R² близко к 1 ему вполне можно верить.
От criterion вообще сложно добиться хороших результатов на современной пользовательской машине (а не на сервере без gui и миллиона сервисов). Это потому что он по умолчанию меряет глобальный wall clock time, вместо CPU time нужного приложения.