Телеграмм чат группы clojure

ну это то да, в одном треде это понятно. И если сделать 100 таких тредов, тоже будет в 100 раз быстрее. Но мне то надо собрать значения из 100 тредов :/
Попробую еще из 100 тредов слать в неблокирующую очередь в один тред и в нем суммировать.

*Adder сделаны специально для складывания в несколько потоков jdkшной командой. Я бы не рассчитывал получить что то заметно лучшее просто играя примитивами меньше чем за несколько месяцев. Только если хитро юзануть особенности домена.

источник

14:55пожаловаться #5

Sergey Trofimov in Clojure — русскоговорящее сообщество

Dima Fomin

вот я поигрался, у меня получилось, что вот так быстрей всего на 4 домашних ядрах

вот распараллеливание инкремента с последующим суммированием с помощью core.async

(criterium/quick-bench
    (loop [i (int 0)
           n (int 1e8)]
      (if (pos? n)
        (recur (unchecked-inc i) (unchecked-dec n))
        i)))
Evaluation count : 12 in 6 samples of 2 calls.
             Execution time mean : 59,346057 ms
    Execution time std-deviation : 365,605235 µs
   Execution time lower quantile : 58,905549 ms ( 2,5%)
   Execution time upper quantile : 59,869274 ms (97,5%)
                   Overhead used : 1,808581 ns
=> nil
(criterium/quick-bench
    (let [limit (int 1e8)
          parallelism 100
          chunk-size (int (/ limit parallelism))
          from (async/to-chan (vec (repeat parallelism 1)))
          to (async/chan parallelism)
          work (async/pipeline parallelism
                 to
                 (map (fn [_]
                        (loop [i (int 0)
                               n (int chunk-size)]
                          (if (pos? n)
                            (recur (unchecked-inc i) (unchecked-dec n))
                            i))))
                 from
                 true)]
      (do
        (async/<!! work)
        (async/<!!
          (async/reduce + 0 to)))))
Evaluation count : 42 in 6 samples of 7 calls.
             Execution time mean : 15,824584 ms
    Execution time std-deviation : 189,562450 µs
   Execution time lower quantile : 15,691798 ms ( 2,5%)
   Execution time upper quantile : 16,145688 ms (97,5%)
                   Overhead used : 1,808581 ns

Found 1 outliers in 6 samples (16,6667 %)
  low-severe   1 (16,6667 %)
 Variance from outliers : 13,8889 % Variance is moderately inflated by outliers
=> nil

источник

15:33пожаловаться #6

Sergey Trofimov in Clojure — русскоговорящее сообщество

ускорение в 4 раза по сравнению с инкрементом в один проход

источник

15:35пожаловаться #7

Sergey Trofimov in Clojure — русскоговорящее сообщество

параллелизм в 1000 хуже чем в 100
впрочем у асинка дефортный пул вроде 8

источник

15:37пожаловаться #8

Sergey Trofimov in Clojure — русскоговорящее сообщество

ну то есть параллелизм выше 8 в данном случае смысла не имеет

источник

15:39пожаловаться #9

Sergey Trofimov in Clojure — русскоговорящее сообщество

понятно, что использование атомов для координации между потоками сразу ломает всю красоту

источник

15:40пожаловаться #10

Sergey Trofimov in Clojure — русскоговорящее сообщество

Sergey Trofimov

вот распараллеливание инкремента с последующим суммированием с помощью core.async

(criterium/quick-bench
    (loop [i (int 0)
           n (int 1e8)]
      (if (pos? n)
        (recur (unchecked-inc i) (unchecked-dec n))
        i)))
Evaluation count : 12 in 6 samples of 2 calls.
             Execution time mean : 59,346057 ms
    Execution time std-deviation : 365,605235 µs
   Execution time lower quantile : 58,905549 ms ( 2,5%)
   Execution time upper quantile : 59,869274 ms (97,5%)
                   Overhead used : 1,808581 ns
=> nil
(criterium/quick-bench
    (let [limit (int 1e8)
          parallelism 100
          chunk-size (int (/ limit parallelism))
          from (async/to-chan (vec (repeat parallelism 1)))
          to (async/chan parallelism)
          work (async/pipeline parallelism
                 to
                 (map (fn [_]
                        (loop [i (int 0)
                               n (int chunk-size)]
                          (if (pos? n)
                            (recur (unchecked-inc i) (unchecked-dec n))
                            i))))
                 from
                 true)]
      (do
        (async/<!! work)
        (async/<!!
          (async/reduce + 0 to)))))
Evaluation count : 42 in 6 samples of 7 calls.
             Execution time mean : 15,824584 ms
    Execution time std-deviation : 189,562450 µs
   Execution time lower quantile : 15,691798 ms ( 2,5%)
   Execution time upper quantile : 16,145688 ms (97,5%)
                   Overhead used : 1,808581 ns

Found 1 outliers in 6 samples (16,6667 %)
  low-severe   1 (16,6667 %)
 Variance from outliers : 13,8889 % Variance is moderately inflated by outliers
=> nil

впрочем, то же самое делается проще с pmap

(criterium/quick-bench
    (reduce + (let [limit (int 1e8)
                    parallelism 100
                    chunk-size (int (/ limit parallelism))]
                (pmap (fn [_]
                        (loop [i (int 0)
                               n (int chunk-size)]
                          (if (pos? n)
                            (recur (unchecked-inc i) (unchecked-dec n))
                            i)))
                  (range parallelism)))))
Evaluation count : 42 in 6 samples of 7 calls.
             Execution time mean : 15,587236 ms
    Execution time std-deviation : 253,629665 µs
   Execution time lower quantile : 15,394598 ms ( 2,5%)
   Execution time upper quantile : 16,013861 ms (97,5%)
                   Overhead used : 1,808581 ns

Found 1 outliers in 6 samples (16,6667 %)
  low-severe   1 (16,6667 %)
 Variance from outliers : 13,8889 % Variance is moderately inflated by outliers
=> nil

источник

15:48пожаловаться #11

Sergey Trofimov in Clojure — русскоговорящее сообщество

Sergey Trofimov

в кложе для такого reducers придуманы
а так пробовать надо

с редюсерами не удалось получить быстрый расчёт с распараллеливанием

(time
    (let [limit (int 1e8)
          parallelism 100
          chunk-size (int (/ limit parallelism))
          coll (vec (repeat limit 1))]
      (time
        (r/fold chunk-size
          (fn
            ([] 0)
            ([i x] (+ i x)))
          (fn
            ([] 0)
            ([i _] (unchecked-inc i)))
          coll))))
"Elapsed time: 1337.647 msecs"
"Elapsed time: 2510.5126 msecs"
=> 100000000

источник

17:04пожаловаться #12

Dima Fomin in Clojure — русскоговорящее сообщество

Sergey Trofimov

ускорение в 4 раза по сравнению с инкрементом в один проход

О! Класс, спасибо! Вобщем вывод ясен - мутейтить общий стейт - тормозно, лучше всего в stateless цикле накопить и потом по разу на тред послать результат.
Я вставил цикл в свой кусок с Adder и тоже получилось, как с async по времени

источник

23:25пожаловаться #13

Dima Fomin in Clojure — русскоговорящее сообщество

В будни проверю на рабочей тачке, какая картина будет с 99 ядрами :)

источник

23:26пожаловаться #14

2020 January 12

Aleksey @cheatex in Clojure — русскоговорящее сообщество

Dima Fomin

А без вложенного цикла сильно хуже?

источник

01:15пожаловаться #15

Sergey Trofimov in Clojure — русскоговорящее сообщество

Dima Fomin

async и pmap без использования искусственно введённых range или repeat, как в примерах выше

(criterium/quick-bench
    (let [limit (int 1e8)
          parallelism 100
          chunk-size (int (/ limit parallelism))
          from (async/to-chan 
                 (repeat parallelism (fn []
                                       (loop [i (int 0)
                                              n (int chunk-size)]
                                         (if (pos? n)
                                           (recur (unchecked-inc i) (unchecked-dec n))
                                           i)))))
          to (async/chan parallelism)
          work (async/pipeline parallelism to (map #(%)) from true)]
      
      (async/<!! work)
      (async/<!!
        (async/reduce + 0 to))))
Evaluation count : 60 in 6 samples of 10 calls.
             Execution time mean : 10,729943 ms
    Execution time std-deviation : 141,940603 µs
   Execution time lower quantile : 10,572088 ms ( 2,5%)
   Execution time upper quantile : 10,929712 ms (97,5%)
                   Overhead used : 1,827556 ns
=> nil
(criterium/quick-bench
    (reduce + (let [limit (int 1e8)
                    parallelism 100
                    chunk-size (int (/ limit parallelism))]
                (pmap #(%) 
                  (repeat parallelism (fn []
                                        (loop [i (int 0)
                                               n (int chunk-size)]
                                          (if (pos? n)
                                            (recur (unchecked-inc i) (unchecked-dec n))
                                            i))))))))
Evaluation count : 60 in 6 samples of 10 calls.
             Execution time mean : 10,509147 ms
    Execution time std-deviation : 113,948602 µs
   Execution time lower quantile : 10,376058 ms ( 2,5%)
   Execution time upper quantile : 10,631008 ms (97,5%)
                   Overhead used : 1,827556 ns
=> nil