почему лупы, выровненные на 16/32, должны быть более предсказуемыми в плане таймингов?
на x86 переменная длина команд, там ведь побайтная по сути интерпретация
я мог бы понять стремление обеспечить локальность кода и стремление впихивать весь код в одну линию кэша, но почему 16 даёт такой эффект-то?