похоже сама по себе процедура подготовки, передачи данных по pci express шине, хлопотная, а сама передача быстрая, поэтому лучше один раз передать большой блок данных чем множество мелких чтений записей через шину делать?
Чтений точно желательно избегать, а записи... не знаю, не тестил скорость рандомных записей против последовательных. Но большими блоками однозначно будет лучше. SSE - 128 бит, AVX - 256. В целом и 32 достаточно обычно, но можно, конечно, и увеличить размер блока.