Так ему для воспроизведения надо, я так понимаю, не файлы модифицировать. Надо написать логику для кастомного декодера, используя java lame в случае декодирования mp3, или MediaCodec для mp4 (aac и им подобные кодеки), запускать нужное количество декодеров для нужного количества файлов, декодировать каждый файл пошагово в отдельный буффер, а потом микшировать эти буфферы в один. Результат будет идеальный, если на то количество файлов, что требуется, хватит производительности девайса