Я так понял, что не совсем баг, а оптимизация, введённая скорости ради. И на современных AMD выстрелила некоторая несовместимость этой оптимизации. Но на современном железе она уже погоды не делает, и от оптимизации можно отказаться)
там чуть иначе, была оптимизация под SSE, но вероятно не учитывающая какие-то side effect’ы и в целом в конце статьи ее заменили на аналогичную из новой версии Direct X