Тут в чем загвоздка:
Анимация реагирует на изменение общей громкости
Тогда начитка должна иметь достаточный разброс громкости — динамику. Если голос закомпрессирован, а это наверняка так, то всплесков на визуализаторе не будет, а если выкрутить ему чувствительность, то будет быстрая хаотичная тряска. Опять таки, вручную рисовать автоматизацию под то, как ты сам слышишь изменение громкости голоса