Предполагалось, что будет работать быстрее (нет), предполагалось, что если у тебя данные уже на видеокарте, то вызов функции estimateRigidTransform этой реализации обгонит cudaMemcpy * 2 + cv::estimateAffineTransform2D (нет). Но если уж я довёл это до состояния "не падает", то хотелось бы довести до правильной работы собственно численного метода. Пускай, на Ryzen 9 это и быстрее, чем на 2080Ti.