помоему гугл сам выдавал эту инфу, поищи, может это настраивается где-то
Короче есть такой прикол, можно загнать аудио которое выдал Google в сервис speech-to-text и он в ответ даст массив для каждого слова ))
Костыль конечно чутка, но чет по другому походу не получится, так как в доке нет ничего про то как сделать это сразу