мне кажется у меня проблема не в том, что я погряз в автоматизациях. Я по мануалу прикручиваю conversation. там, судя по документу, процесс такой: в ХА мы задаём intentы, т.е. реакция ХА на разнообразные фразы
ты в ХА описываешь набор действий (intent'ы. просто идентификатор), ассоциируешь их со скриптами (включить свет в такой-то комнате. А затем сторонний voice recognition твой голос конвертирует в intent, передав все нужные данные об этом, в ХА, через вебхук