Видео там или фото мы не знаем. Но видео это последовательность фото. Раз кроме CNN Квант ничего не упомянул, вряд ли там что-то мудренное. Все сводится к тому, что надо иметь большой набор фото с всего-лишь 26-33 классами.
Все ненужное сеть отбросит и будет ориентироваться только на положение рук.