Сделай цикл ~100000, и каждый раз складывай. Тогда будет ясно, что работает быстрее, а что нет.
Но метод с cpuid+rdtsc вообще спорный. Написал же - чтоб наверняка, нужно знать устройство инструкций, логиу исполнения инструкций.
Есть ещё вариант - на Линуксе можно замерять скорость исполнения программ через date +%s+%N (наносекунды)
Скрипт свой выше кидал