а к чему тут нейронная сеть? бит детекшн же алгоритмом определяет энергию момента, потом просто во время определенных энергий что-то спавнишь/эффекты меняешь
щас обучение нейросети не проблема, парсер библиотеки уровней на питоне, на нем же подключена любая библиотека, и пусть себе ассоциируют музыку с моментом уровня