Телеграмм чат группы hadoopusers страница 4226

Size: a a a

Data Engineers

3187 membersпожаловаться на группу

2021 September 17

Oleg Ilinsky in Data Engineers

ну сейчас мне кажется, проще selectExpr какой-нибудь сделать, особенно, если это pyspark

источник

11:26пожаловаться #1

ИК

Иван Калининский... in Data Engineers

раньше (в 2.2.0) была большая проблема с множеством union, пара тысяч партиций склеивались несколько часов. В какой-то версии её пофиксили, но я пользуюсь имплиситом, который вызывает Union для всех датафреймов сразу. Делал бенчмарк, обычный юнит-тест, разница во времени получалась от пятидесяти раз до нескольких тысяч
А вот на колумны не делал, всегда было незаметно на фоне остальных операций. Так что, наверное, не стоит беспокоиться

источник

11:31пожаловаться #2

Dmitry in Data Engineers

set mem_limit=40g;
оно?

источник

14:06пожаловаться #3

Gennadiy Bbb in Data Engineers

Да

источник

14:07пожаловаться #4

Oleg Ilinsky in Data Engineers

маму твою по театрам водил

источник

14:58пожаловаться #5

Alexey Stavrov in Data Engineers

Всем привет.
Есть вопрос по hbase-у.
У hbase-а задаётся размер memstore и blockcache в процентах. По умолчанию 0.4 и 0.4. Остальные 20% видимо идут на какие-то внутренние нужды hbase. Как-то можно правильно понять, сколько точно хватит самому hbase-у? Кто-то пробовал задавать memstore + blockcache суммарно больше 80%?)

источник

14:58пожаловаться #6

Alex in Data Engineers

Раньше натыкался когда они даже больше 100% оказались, ушёл в перманентный gc сервер, потом оом

источник

15:00пожаловаться #7

Alex in Data Engineers

Опять же 20% хипа это много или мало?

Зависит от размера этого хипа

источник

15:01пожаловаться #8

Alexey Stavrov in Data Engineers

Да, но может от того, какой размер memstore или blokcache следует пропорциональная зависимость всего остального. Может она как раз должна быть 20%, если 80% - это memstore и blockcache.

А может быть нет и достаточно 5gb, тогда я могу сам высчитать из размера heap-а, сколько мне оставить

источник

15:07пожаловаться #9

Alex in Data Engineers

Мемстор активно на записи используется

Блоккеш при чтении

Дальше уже плясать от нагрузки и можно туда сюда двигать их

источник

15:09пожаловаться #10

Alexey Stavrov in Data Engineers

Наверное вопрос такой: есть ли там пропорциональная зависимость или есть просто какой-то потолок, который я могу задать?

источник

15:10пожаловаться #11

Anton Zadorozhniy in Data Engineers

оверкоммитить не надо, а относительно размеров -вы подбираете что под вашу нагрузку нужно, мемстор влияет на то как часто оно компактит на диск, блок кэш снимает дисковую нагрузку на чтение (так же как бакет кэш, не забывайте про него), подходящие вам настройки зависят от вашей нагрузки

источник

15:14пожаловаться #12

Anton Zadorozhniy in Data Engineers

0.4/0.4 по-моему хороший бейзлайн, дальше вы запускаете свои стресстесты и смотрите как оно себя ведет

источник

15:15пожаловаться #13

Alexey Stavrov in Data Engineers

> оверкоммитить не надо

Это означает, что больше 80% задавать их суммарно не стоит?

источник

15:15пожаловаться #14

Anton Zadorozhniy in Data Engineers

да, не стоит

источник

15:15пожаловаться #15

Alexey Stavrov in Data Engineers

Спасибо!

источник

15:15пожаловаться #16

Alexey Stavrov in Data Engineers

А меньше есть ли мысл?

источник

15:15пожаловаться #17

Anton Zadorozhniy in Data Engineers

нет, смысла меньше нет

источник

15:17пожаловаться #18

Anton Zadorozhniy in Data Engineers

20% это резерв по сути

источник

15:17пожаловаться #19

Алексей in Data Engineers

у меня были проблемы с withcolumn, когда их было 5 тысяч. План запроса формировался 1 час, переделал на select(col array) время снизилось до пары секунд

источник

15:29пожаловаться #20