да, сценарий таков, что на поверхностях без экрана меню проговаривается, а пользователь называет интересующий его пункт меню (а-ля, "для связи с оператором нажмите 1", только вместо "нажмите" будет "произнесите"). вопрос на самом деле технический — как интерпретировать множество возможных ответов, кроме как парсить строки или создавать под каждый ответ свой интент? может, у кого-то есть такой опыт.
Если меню достаточно однородное, о можно на каждый ответ создавать не свой интент, а своё значение сущности. Интент будет отвечать за все фразы типа "теперь выбери пункт Х", а сущность - за то, что конкретно имеется в виду под Х. При обновлении меню можно будет обновлять только сущность, а интенты менять будет не нужно.