Size: a a a

2020 December 16

T

T in Data Engineers
Nikita Blagodarnyy
ну типа видеокурсов-туториалов
если орели через acm брать?
источник

N

Nikita Blagodarnyy in Data Engineers
Nikita Blagodarnyy
ну типа видеокурсов-туториалов
я так на 4 email по триалу spring-batсh попырил
источник

ИК

Иван Калининский... in Data Engineers
Коллеги, срочный вопрос, при запуске приложения spark 2.4.0 несколько тасков зависли в продолжительной сборке мусора, полчаса уже ничего не происходит. Всё остальные таски (полмиллиона) выполнили ь без проблем). Используется G1GC как на драйвере, так и на экзекуторах. Применяются HashMap в udf, в бродкаст не обернуты

Может, что-то ещё надо уточнить, спрашивайте.
источник

ME

Mikhail Epikhin in Data Engineers
Иван Калининский
Коллеги, срочный вопрос, при запуске приложения spark 2.4.0 несколько тасков зависли в продолжительной сборке мусора, полчаса уже ничего не происходит. Всё остальные таски (полмиллиона) выполнили ь без проблем). Используется G1GC как на драйвере, так и на экзекуторах. Применяются HashMap в udf, в бродкаст не обернуты

Может, что-то ещё надо уточнить, спрашивайте.
добавьте памяти, если её не хватает, то любой gc не сможет ничего сделать:)
источник

ИК

Иван Калининский... in Data Engineers
Mikhail Epikhin
добавьте памяти, если её не хватает, то любой gc не сможет ничего сделать:)
Спасибо, понятно! В логе есть ошибки OOM, полагаю, это оно и есть? Тогда понятно, чем вызвано, это я смогу исправить
источник

ME

Mikhail Epikhin in Data Engineers
Иван Калининский
Спасибо, понятно! В логе есть ошибки OOM, полагаю, это оно и есть? Тогда понятно, чем вызвано, это я смогу исправить
Да, оно.
источник

N

Nikita Blagodarnyy in Data Engineers
мы как-то меняли на CMS. он себя более лутше показал.
источник

ab

a b in Data Engineers
apparently not, good to know
источник

N

Nikita Blagodarnyy in Data Engineers
Граждане-монореписты, а какие бестпрактис по построению CI/CD в  мультимодуль мавен монореп проекте? .gitlab_ci то получается тоже один, как гитлабу сказать, что ему сейчас надо собрать не все 100500 модулей, а только те, что поменялись в текущем коммите и их зависимости?
источник

N

Nikita Blagodarnyy in Data Engineers
На девопсов надежды нет, они какую-то дичь творят наркоманскую.
источник

А

Алексей in Data Engineers
Подскажите по спарку, почему в agg нельзя писать просто list:_*  , как в остальных функциях?
df.groupBy(gr_cols:_*).agg(agg_cols: _*)
Приходится извращаться с
sku_df.groupBy(gr_cols:_*).agg(agg_cols.head, agg_cols.tail: _*)
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Граждане-монореписты, а какие бестпрактис по построению CI/CD в  мультимодуль мавен монореп проекте? .gitlab_ci то получается тоже один, как гитлабу сказать, что ему сейчас надо собрать не все 100500 модулей, а только те, что поменялись в текущем коммите и их зависимости?
источник

AZ

Anton Zadorozhniy in Data Engineers
А вообще Awesome Monorepo хороший список, там много полезного
источник

UD

Uncel Duk in Data Engineers
Nikita Blagodarnyy
Граждане-монореписты, а какие бестпрактис по построению CI/CD в  мультимодуль мавен монореп проекте? .gitlab_ci то получается тоже один, как гитлабу сказать, что ему сейчас надо собрать не все 100500 модулей, а только те, что поменялись в текущем коммите и их зависимости?
лучше притащить какой-нибудь базель вместо войн с гитлабом
источник

N

Nikita Blagodarnyy in Data Engineers
Алексей
Подскажите по спарку, почему в agg нельзя писать просто list:_*  , как в остальных функциях?
df.groupBy(gr_cols:_*).agg(agg_cols: _*)
Приходится извращаться с
sku_df.groupBy(gr_cols:_*).agg(agg_cols.head, agg_cols.tail: _*)
Ну нету такого метода в апи. Мапу можно скормить.
источник

ME

Mikhail Epikhin in Data Engineers
Nikita Blagodarnyy
мы как-то меняли на CMS. он себя более лутше показал.
ну это как резину на автомобиле менять, в каждых условиях своя лучше будет.
но если диаметр не тот, то машина не поедет, надо сначала размер правильный иметь, потом уже тюнить что-то конкретное latency / bandwidth :)

CMS уже устарел, если что
источник

S

Stanislav in Data Engineers
Nikita Blagodarnyy
Граждане-монореписты, а какие бестпрактис по построению CI/CD в  мультимодуль мавен монореп проекте? .gitlab_ci то получается тоже один, как гитлабу сказать, что ему сейчас надо собрать не все 100500 модулей, а только те, что поменялись в текущем коммите и их зависимости?
многовато скриптов надо навернуть в гитлабе
по идее ж надо смотреть на корень и увеличение версии конкретного модуля?
источник

А

Алексей in Data Engineers
Nikita Blagodarnyy
Ну нету такого метода в апи. Мапу можно скормить.
да, вижу, хочется понять почему везде можно, а тут нет. Понять, что было в голове у человека, который это выдумывал)
источник

MB

Mikhail Butalin in Data Engineers
Подскажите пожалуйста.
А я правильно понимаю что любой запрос к паркету, даже через импалу - это последовательное чтение таблицы всегда?
источник

N

Nikita Blagodarnyy in Data Engineers
Mikhail Epikhin
ну это как резину на автомобиле менять, в каждых условиях своя лучше будет.
но если диаметр не тот, то машина не поедет, надо сначала размер правильный иметь, потом уже тюнить что-то конкретное latency / bandwidth :)

CMS уже устарел, если что
да, естественно. на 1 конкретной задаче с тонкими настройками областей он себя лучше показал. Не вообще везде.
источник