Ну правильно, переносимость, всё такое. Но если уж и писать на ассемблере с мозгами, то выйдет побыстрее Си.
И я вот уже посчитал GetTickCount (kernel32 же на Си написан, и работает с KUSER_SHARED_DATA), и он выходит на 24 тика, когда у меня такой же код на 17 (не считая lea - 16) тиков