Ребят, такой вопросик:
Есть разговорное аудио, сгенерированное Google TTS.
Нужно отрекогнайзить слова или хотя бы предложения из него, и, главное — тайминги начала и конца звучания слов или предложений.
Если кто-нибудь подобным занимался, порекомендуйте сервис/либу/нейронку пожалуйста
Google Speech to Text может такое