А как это решаемо? Та как после распознавания вам надо иметь на руках что-то, что можно сравнить с чем-то, что уже есть. Я бы попытался найти хотя бы примерное описание того, как это делает шазам. Так как в любом случае вам надо будет и звык и картинку отдельно распознавать. (Что мешает звук одного видео наложить на другое или вобще посторонние шумы убрать, если видео на мьюте или без звука и тд).
Хмм, это получается нужно обрабатывать и звук и картинку. Со звуком можно попробовать схему работы шазама наверное, а вот с видео довольно интересно.
В библиотеке будут сотни тысяч видео, если не миллионы. Это надо как-то эффективно прогонять за пару секунд и находить автора. Жесть :)