Пинг проверяет, что навык вообще живой.
Корректность ответов нужно проверять чем-то ещё.
Лично мне кажется правильным решением сделать регулярный автоматический процесс, анализирующий логи всех вызовов навыка, и подсчитывающий разнообразие ответов, долю "навык не отвечает", а также наличие в ответах навыка насилия, наркотиков, и прочего дерьма.
Это Яндексу нужно даже больше, чем разработчикам. И рано или поздно мы до этого дойдём)