Для этого этот бенчмарк должен получить заметную популярность )
Скажу другими словами: пофиг даже на единый бенчмарк, скорее всего это утопия.
Есть банальное желание увидеть, что продукт за Х килобаксов проходит хоть какое-то функциональное тестирование, чтобы была возможность оценить методику и результаты.
А то дефолтный контент нередко совсем нерабочий, будто вообще не тестили. Это клёво, что он хоть какой-то есть, но когда он не работает на дефолтной нормализации, например - есть в этом что-то некрасивое.