Size: a a a

2020 December 20

DZ

Dmitry Zuev in Data Engineers
Можно не бродкастить а юзать mapPartition
источник
2020 December 21

A

Alexander in Data Engineers
Andrey Smirnov
А сколько строк в dataframe?
около 100k
источник

A

Alexander in Data Engineers
Sergey Klimov
Посмотрите в сторону pandas_udf, если хотите на векторах и spark версии 2.3 и больше
То есть просто лямда функцию заменить на PandasUDF?
источник

A

Alexander in Data Engineers
Sergey Klimov
+ стоит избежать инициализации модели на каждый скаляр или вектор в udf, тоже может съедать производительность. Но тогда не всегда можно легко забродкастить модель. Был случай, когда в либе где-то в кишках были статические поля, которые превращались в тыкву при бродкасте объекта.
Чёт не сильно врубаюсь как можно это сделать..
источник

ЕК

Епихин Кирилл... in Data Engineers
Всем доброго дня!
Подскажите плиз, если кто с hue работает, проблема в следующем, есть oozie workflow с параллельным выполнение sqoop job'ов(20 джобов), но одновременно запускаются не более двух job'ов, как это побороть? ((((
источник

ME

Mikhail Epikhin in Data Engineers
Епихин Кирилл
Всем доброго дня!
Подскажите плиз, если кто с hue работает, проблема в следующем, есть oozie workflow с параллельным выполнение sqoop job'ов(20 джобов), но одновременно запускаются не более двух job'ов, как это побороть? ((((
ресурсов хватает в кластере? может квота на пользователя?
источник

ЕК

Епихин Кирилл... in Data Engineers
Mikhail Epikhin
ресурсов хватает в кластере? может квота на пользователя?
дэ кластером это назвать сложно ) там всего одна нода и на ней всё крутится, но по ресурсам должно хватать с избытком: 32 ядра и 64 оперативы.
источник

A

Alex in Data Engineers
Описал десктоп, не самый мощный
источник

ЕК

Епихин Кирилл... in Data Engineers
Епихин Кирилл
дэ кластером это назвать сложно ) там всего одна нода и на ней всё крутится, но по ресурсам должно хватать с избытком: 32 ядра и 64 оперативы.
Так же вручную если запустить sqoop джобы из под ssh, они отрабатывают без проблем параллельно
источник

ЕК

Епихин Кирилл... in Data Engineers
Alex
Описал десктоп, не самый мощный
ну не самый мощный, это понятно ) но для текущих задач, должно хватать без проблем
источник

AZ

Anton Zadorozhniy in Data Engineers
в последнее время тут плотно пошли микро-кластера, тренд какой-то что ли (при том что в отрасли вовсю обсуждаются 80 ядерные камни, десктопные камни на 32 ядра стали мейнстримом)
источник

ЕК

Епихин Кирилл... in Data Engineers
Anton Zadorozhniy
в последнее время тут плотно пошли микро-кластера, тренд какой-то что ли (при том что в отрасли вовсю обсуждаются 80 ядерные камни, десктопные камни на 32 ядра стали мейнстримом)
дэ сейчас цель не создать большой мощный кластер, а научиться с этим вообще работать.. а мощности докинуть не проблема, по необходимости)
как я понял, если докинуть ща мощностей, то проблема моя не решится )
источник

AZ

Anton Zadorozhniy in Data Engineers
Епихин Кирилл
дэ сейчас цель не создать большой мощный кластер, а научиться с этим вообще работать.. а мощности докинуть не проблема, по необходимости)
как я понял, если докинуть ща мощностей, то проблема моя не решится )
почему вообще такой стэк и архитектура, у вас взрывной рост какой-то предвидится?
источник

AZ

Anton Zadorozhniy in Data Engineers
(я без упрека если что, просто интересно)
источник

ЕК

Епихин Кирилл... in Data Engineers
Anton Zadorozhniy
почему вообще такой стэк и архитектура, у вас взрывной рост какой-то предвидится?
дэ нет в общем то )
Планируется забирать данные из 17 источников))
источник

ЕК

Епихин Кирилл... in Data Engineers
но пока б с одним источником разобраться )))))
сейчас забираю данные из PG базы, в целом базу забрать не проблема, а вот с синхронизацией таблиц проблемы)
на просторах интернета вычитал, что это делается sqoop джобами, вот и пытаюсь реализовать )
источник

ЕК

Епихин Кирилл... in Data Engineers
но решение sqoop джобов так себе... это ж на каждую таблицу надо делать отдельный джоб :-/
источник

SK

Sergey Klimov in Data Engineers
Alexander
То есть просто лямда функцию заменить на PandasUDF?
По сути да, вместо udf в вашем примере будет pandas_udf и функция будет принимать pd.Series. За подробностями лучше в документацию глянуть, там подробно описаны различные варианты создания такой udf.
источник

AZ

Anton Zadorozhniy in Data Engineers
Епихин Кирилл
но решение sqoop джобов так себе... это ж на каждую таблицу надо делать отдельный джоб :-/
sqoop блистает если у вас немного очень больших таблиц, если у вас много маленьких (или вообще нет очень больших таблиц) - то оверхед на вашем "кластере" будет огромный, вам лучше посмотреть на какой-то подходящий ETL инструмент или написать свою выгружалку
источник

ЕК

Епихин Кирилл... in Data Engineers
Anton Zadorozhniy
sqoop блистает если у вас немного очень больших таблиц, если у вас много маленьких (или вообще нет очень больших таблиц) - то оверхед на вашем "кластере" будет огромный, вам лучше посмотреть на какой-то подходящий ETL инструмент или написать свою выгружалку
Большое спасибо!
Пошёл гуглить )
источник