Телеграмм чат группы rustjerks страница 23003

в L1 данные загружаются порциями 64 байта

20:36пожаловаться #1

ты никак на это влиять не можешь

20:37пожаловаться #2

Ilya L in pro.cxx.holywars

ну не, надо же позаботиться про то, что на один элемент стоблца весь кешлайн почти вхолостую загружаешь

Как мне кажется под такие инструменты нужно сделать какой-нибудь постоянный публичный интерфейс и внедрить модульную имплементацию(например через шаблоны). И потом внутри сделать стандартный и привычный алгоритм, а затем под процессор делать выбор конкретной имплементации

20:37пожаловаться #3

в L1 данные загружаются порциями 64 байта

В спарках по 128, не?

20:37пожаловаться #4

ты не можешь без кеша, понятие "кешлайн" у тебя всё равно существует на уровне L1 кеша независимо от того, как ты пишешь код

#pragma vector nontemporal

20:37пожаловаться #5

Ну это нюансы

20:37пожаловаться #6

и кэширование нахуй

20:37пожаловаться #7

Chris Calvin

В спарках по 128, не?

я условно, на разных архитектурах по-разному

20:37пожаловаться #8

Alexander Zaitsev in pro.cxx.holywars

Транс-сатанистский анархист с лозунгом «К чёрту полицию» выиграл номинацию на пост шерифа Нью-Хэмпшир из-за отсутствия конкурентов

Кандидат от народа

20:37пожаловаться #9

Шерифа должен одобрить губернатор

20:38пожаловаться #10

Ilya L in pro.cxx.holywars

Ilya L

(по крайне мере сейчас в рамках эксперимента в проекте пытаюсь такую штуку делать, что бы мок-классы для тестов легко прокидывать)

20:38пожаловаться #11

Yarique Belgorodsky

#pragma vector nontemporal

ну эта прагма тебе обработает сразу cachline_size/sizeof(element) столбцов за раз, или опять же один элемент

20:38пожаловаться #12

Это чучело не одобрят

20:38пожаловаться #13

ну эта прагма тебе обработает сразу cachline_size/sizeof(element) столбцов за раз, или опять же один элемент

если это будет один элемент, то опять же вхолостую L1 гоняешь

20:38пожаловаться #14

ну эта прагма тебе обработает сразу cachline_size/sizeof(element) столбцов за раз, или опять же один элемент

короч надо мерять, но в любом случае векторизировать

20:39пожаловаться #15

Yarique Belgorodsky

короч надо мерять, но в любом случае векторизировать

ну там не надо ничего искусственно векторизовывать, векторизацию компилятор сам тут сделает

20:40пожаловаться #16

а вот порядок обхода данных компилятор за тебя не изменит

20:40пожаловаться #17

pika42 in pro.cxx.holywars

ты никак на это влиять не можешь

Спорно, всегда Можно создать свою архитектуру

20:41пожаловаться #18

Yarique Belgorodsky

короч надо мерять, но в любом случае векторизировать

ну да, сначала VTune, потом думать, в реальности оно выглядит как-то так

20:41пожаловаться #19

ну там не надо ничего искусственно векторизовывать, векторизацию компилятор сам тут сделает

нихуя он не может векторизировать а ля

    int i,j;//, ii=0,jj=0;
    // variables for vector section
    int vindexm [8]={0, MAX1, MAX1*2, MAX1*3, MAX1*4, MAX1*5, MAX1*6, MAX1*7 };
    __m256i vindex = _mm256_load_si256((__m256i *) &vindexm[0]);
    __m256 vec1, vec2, vec3, vec4, vec5, vec6, vec7, vec8;

        for(i=0; i<MAX1;  i+=8){            
            for(j=0; j<MAX2;  j+=8){
                //loading from columns
                vec1 = _mm256_i32gather_ps (&a[i][j+0],vindex,4);
                vec2 = _mm256_i32gather_ps (&a[i][j+1],vindex,4);
                vec3 = _mm256_i32gather_ps (&a[i][j+2],vindex,4);
                vec4 = _mm256_i32gather_ps (&a[i][j+3],vindex,4);
                vec5 = _mm256_i32gather_ps (&a[i][j+4],vindex,4);
                vec6 = _mm256_i32gather_ps (&a[i][j+5],vindex,4);
                vec7 = _mm256_i32gather_ps (&a[i][j+6],vindex,4);
                vec8 = _mm256_i32gather_ps (&a[i][j+7],vindex,4);

                //storing to the rows
                _mm256_store_ps(&a_tra[j+0][i], vec1);
                _mm256_store_ps(&a_tra[j+1][i], vec2);
                _mm256_store_ps(&a_tra[j+2][i], vec3);
                _mm256_store_ps(&a_tra[j+3][i], vec4);
                _mm256_store_ps(&a_tra[j+4][i], vec5);
                _mm256_store_ps(&a_tra[j+5][i], vec6);
                _mm256_store_ps(&a_tra[j+6][i], vec7);
                _mm256_store_ps(&a_tra[j+7][i], vec8);  
            }
        }

он слишком туп