Не байт, а X байт (в зависимости от размера данных, и размера кэшлайна)
И читаешь ты в реале кусок из кэшлайна. При выравнивании - данные попадают в один кэшлайн, и в следующий раз если ты попытаешься его прочитать - то он прочтёт из кэшлайна уже по выравненному диапазону, что будет намного быстрее. Выше поверхностно это уже и было описано