Так вот именно - если изменили 15 правил, то на одном и том же датасете получатся совершенно разные результаты. И как определить, корректно ли изменились правила и не затронули ли изменения то, что затрагивать было не нужно?
Это же не машинное обучение, где всё работает вокруг вероятности и качество модели оценивается вероятностью, а вполне детерминированные правила. И можно создать фреймворк, в котором эти правила будут описываться простой нотацией типа ямла и не нужно будет тратить большое время на поддержку тестов
Логика такая, что 99 процентов должно остаться тем же, остальное проанализировать. Т.е это не замена функциональному тестированию фичи, это попытка избежать ситуации "выкатили фичу, половина транзакций отвалилась". Расчет на то, что каждое изменение не сильно меняет общую картину, при этом каждый новый кейс будет рассмотрен вручную. По идее надо бы писать тест под каждое правило, но тут уже вопрос про разделение зон ответственности между разработкой и бизнесом.