Size: a a a

2021 March 30

ЕГ

Евгений Глотов... in Data Engineers
Alex
их кастомными патчами 😉
Да, я немного офигел, когда не нашёл в мастере)
источник

N

Nikita Blagodarnyy in Data Engineers
Какие минусы запихивания метастора/хайвсервера в ранчер?  При том, что постгрес вовне ранчера на железке.
источник

A

Alex in Data Engineers
Евгений Глотов
Я с одним несложным патчем, включающим пайспарк виртуалэнв, гемора словил достаточно)
О, вспоминаю как у них реализован был install_package

Создаём рдд пустой
Репартишен на количество воркеров
В mapPartition вызываем pip install

Мы же верим что при параллелизации каждая партиция попадёт на свой воркер
источник

ЕГ

Евгений Глотов... in Data Engineers
Alex
О, вспоминаю как у них реализован был install_package

Создаём рдд пустой
Репартишен на количество воркеров
В mapPartition вызываем pip install

Мы же верим что при параллелизации каждая партиция попадёт на свой воркер
Вроде всё ок работает, даже в таком варианте)
источник

A

Alex in Data Engineers
Меня больше смутило что захват инфы какие пакеты ставились не было, то есть если у вас динамик алокация включена и добавились воркеры, то там пакеты которые вы доставили не найдёт
источник

K

KrivdaTheTriewe in Data Engineers
Alex
О, вспоминаю как у них реализован был install_package

Создаём рдд пустой
Репартишен на количество воркеров
В mapPartition вызываем pip install

Мы же верим что при параллелизации каждая партиция попадёт на свой воркер
можно кстати кластер менеджмент н сделать на этой штуке
источник

ЕГ

Евгений Глотов... in Data Engineers
KrivdaTheTriewe
можно кстати кластер менеджмент н сделать на этой штуке
Не привлекая внимание девопсов)
источник

A

Alex in Data Engineers
KrivdaTheTriewe
можно кстати кластер менеджмент н сделать на этой штуке
Разворачиваем акка кластер с помощью спарка
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Какие минусы запихивания метастора/хайвсервера в ранчер?  При том, что постгрес вовне ранчера на железке.
Если речь про stand-alone metastore то ему в контейнере самое место, и скейлить проще
источник

K

KrivdaTheTriewe in Data Engineers
Вообще, не хватает примитивов работы с воркерами, типа он воркер аллокейтед и прочие такие штуки, чтобы пулами управлять
источник

K

KrivdaTheTriewe in Data Engineers
KrivdaTheTriewe
Вообще, не хватает примитивов работы с воркерами, типа он воркер аллокейтед и прочие такие штуки, чтобы пулами управлять
(экзекьютор)
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
Разворачиваем акка кластер с помощью спарка
У нас есть такие энтузиасты, который из хранимки поднимают коннекшен куда-то вовне кластера)
источник

AZ

Anton Zadorozhniy in Data Engineers
(У старберста так коннектор целый сделан)
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
(У старберста так коннектор целый сделан)
там через ленивую инициализацию можно сделать пулы пер экзекьютор в форичбатче )
источник

K

KrivdaTheTriewe in Data Engineers
Классика жанра
источник

A

Alex in Data Engineers
Да ладно, вся работа с mssql в агоде построена на хранимках, а уж что за дичь там бывает пишут я вообще молчу
источник

AZ

Anton Zadorozhniy in Data Engineers
Точно
источник

AE

Alexey Evdokimov in Data Engineers
зато нескучно юзать наверное
источник

K

KrivdaTheTriewe in Data Engineers
Нескучная Data
источник

SK

Sergey Kaurov in Data Engineers
Привет 👋
Хорошо всё шло.. Но дальше запнулся и что-то не знаю.. Изучаю Scala потихоньку.
Есть
| uid | timestamp|
---------------------
| 555 | 12356788|
| 555 | 16776678|
| 555 | 16657556|
Ну в общем uid дофига одинаковых есть, но из поля timestamp надо выбрать наибольшее значение и вывести с uid. Одна строка получится. Пытаюсь max(expr) использовать:
.withColumn("c_max", max(col("timestamp")))
Но что-то не так делаю. Подскажите или пример такой же скиньте плиз!?
источник