Посмотрите vosk. Там же прям докер можно взять, добавить предобученную модель с их же сайта и все сразу полетит. Vosk основан на kaldi, ну или как-то так
ага, тут с оценкой наиболее понятно, тут больше вопрос с оценкой дообучения воска, сколько в среднем занимет у бывалых и среднее время для решения задач связанных с выделением из текста показателей, а еще интересно, кто сталкивался с созданием своих решений, сколько это человеческих ресурсов у них занимало)