Вот еще интересный абзац:
Время обращения к слову памяти зависит от его адреса. Если слово имеет нечетный адрес, то его передача из оперативной памяти занимает 2 цикла шины, длящихся по 4 такта синхронизации каждый. Следовательно, каждое обращение к слову с нечетным адресом требует четырех дополнительных тактов синхронизации.
Именно такие тонкости и важны во всём. Даже копирование байтов лучше делать по 4 штуки за раз. Поэтому последовательность сразу лучше делать кратную 4, либо хвост отдельно переносить в конце