Самый важный бонус builtin - если cpu не умеет инструкцию, то компилятор тебе сгенерирует быстрый эквивалент.
Даже на x86 на некоторых моделях cpu лучше использовать SSE(и 128 битные регистры), чем AVX(где регистры по 256 бит).
Потому что внутри AVX дробился на пару 128 векторов, исполнялся и потом обратно собирался в 256 бит и суммарный выхлоп получался меньше.
Компилятор это сделает за тебя, а не руками всю эту машинерию писать с учётом таймингов инструкций.