Да там, кажется, особо ничего и не нужно сложного делать, mfcc + с ними еще пару дельть и аггрегационных фичей для записи и уже у людей качество 95+% хоть нейронками хоть SVM.
https://www.kaggle.com/primaryobjects/voicegender --- вот тут пример того, какие признаки извлекать можно.
Думаю, что там гораздо больше может быть проблем с входным форматом, например, если там частота разная или формат записи и т.д.