Если нужна скорость, можно вообще минуя ассемблер на машинном коде — там и сишник не угонится.
Если тебе нужно ускорить процесс в 16 раз, то чем параллелить его на 16 ядер, проще реально переписать на ассемблере, он действительно будет быстрее в 16 раз без всякой параллелизацией.
Но есть задачи, для которых параллелилзация выгоднее ускорения единичного кодового потока. Так что иди поссы там на них