Это не FPU а блоки исполнения микроопераций. Их нужно много (посмотрите также сколько блоков в ИНТ части) чтобы реализовалась суперскалярность, внеочередное исполнения и многие другие микроархитектурные плюшки. И да - помощью всего этого можно выполнять не одну а много инструкций за такт, на текущих процессорах до 4 на линейном коде и 6 на коде который уже есть в кеше микроорераций (не путать с кэшами 1,2, 3 уровней). Достижение таких поквзателей практически нереально для осмысленных алгоритмов но с помощью тщательной оптимизации можно приблизиться, если алгоритм позволяет. Большинство программ, которые никто особо не оптимизирует выполняются на 1-2 инструкций за такт и менее.