Size: a a a

2021 September 17

OI

Oleg Ilinsky in Data Engineers
ну сейчас мне кажется, проще selectExpr какой-нибудь сделать, особенно, если это pyspark
источник

ИК

Иван Калининский... in Data Engineers
раньше (в 2.2.0) была большая проблема с множеством union, пара тысяч партиций склеивались несколько часов. В какой-то версии её пофиксили, но я пользуюсь имплиситом, который вызывает Union для всех датафреймов сразу. Делал бенчмарк, обычный юнит-тест, разница во времени получалась от пятидесяти раз до нескольких тысяч
А вот на колумны не делал, всегда было незаметно на фоне остальных операций. Так что, наверное, не стоит беспокоиться
источник

D

Dmitry in Data Engineers
set mem_limit=40g;
оно?
источник

GB

Gennadiy Bbb in Data Engineers
Да
источник

OI

Oleg Ilinsky in Data Engineers
маму твою по театрам водил
источник

AS

Alexey Stavrov in Data Engineers
Всем привет.
Есть вопрос по hbase-у.
У hbase-а задаётся размер memstore и blockcache в процентах. По умолчанию 0.4 и 0.4. Остальные 20% видимо идут на какие-то внутренние нужды hbase. Как-то можно правильно понять, сколько точно хватит самому hbase-у? Кто-то пробовал задавать memstore + blockcache суммарно больше 80%?)
источник

A

Alex in Data Engineers
Раньше натыкался когда они даже больше 100% оказались, ушёл в перманентный gc сервер, потом оом
источник

A

Alex in Data Engineers
Опять же 20% хипа это много или мало?

Зависит от размера этого хипа
источник

AS

Alexey Stavrov in Data Engineers
Да, но может от того, какой размер memstore или blokcache следует пропорциональная зависимость всего остального. Может она как раз должна быть 20%, если 80% - это memstore и blockcache.

А может быть нет и достаточно 5gb, тогда я могу сам высчитать из размера heap-а, сколько мне оставить
источник

A

Alex in Data Engineers
Мемстор активно на записи используется

Блоккеш при чтении

Дальше уже плясать от нагрузки и можно туда сюда двигать их
источник

AS

Alexey Stavrov in Data Engineers
Наверное вопрос такой: есть ли там пропорциональная зависимость или есть просто какой-то потолок, который я могу задать?
источник

AZ

Anton Zadorozhniy in Data Engineers
оверкоммитить не надо, а относительно размеров -вы подбираете что под вашу нагрузку нужно, мемстор влияет на то как часто оно компактит на диск, блок кэш снимает дисковую нагрузку на чтение (так же как бакет кэш, не забывайте про него), подходящие вам настройки зависят от вашей нагрузки
источник

AZ

Anton Zadorozhniy in Data Engineers
0.4/0.4 по-моему хороший бейзлайн, дальше вы запускаете свои стресстесты и смотрите как оно себя ведет
источник

AS

Alexey Stavrov in Data Engineers
> оверкоммитить не надо

Это означает, что больше 80% задавать их суммарно не стоит?
источник

AZ

Anton Zadorozhniy in Data Engineers
да, не стоит
источник

AS

Alexey Stavrov in Data Engineers
Спасибо!
источник

AS

Alexey Stavrov in Data Engineers
А меньше есть ли мысл?
источник

AZ

Anton Zadorozhniy in Data Engineers
нет, смысла меньше нет
источник

AZ

Anton Zadorozhniy in Data Engineers
20% это резерв по сути
источник

А

Алексей in Data Engineers
у меня были проблемы с withcolumn, когда их было 5 тысяч. План запроса формировался 1 час, переделал на select(col array) время снизилось до пары секунд
источник