Короче есть такой прикол, можно загнать аудио которое выдал Google в сервис speech-to-text и он в ответ даст массив для каждого слова )) Костыль конечно чутка, но чет по другому походу не получится, так как в доке нет ничего про то как сделать это сразу