u
Для таких задач конечно есть готовые инструменты и даже предтренерованные модели.
Как только вы начинаете выходить за рамки типичной задачи вы попадаете на уровень ноль и начинаете думать откуда взять фичи самостоятельно, потому что автомл ничего ценного предложить не может =)
Вот хороший пример сложной архитектуры для видео https://www.youtube.com/watch?v=B1Dk_9k6l08
По факту разработаны 4 отдельные подсети для определение фич в одной задаче.