Телеграмм чат группы hadoopusers страница 3081

+ стоит избежать инициализации модели на каждый скаляр или вектор в udf, тоже может съедать производительность. Но тогда не всегда можно легко забродкастить модель. Был случай, когда в либе где-то в кишках были статические поля, которые превращались в тыкву при бродкасте объекта.

Чёт не сильно врубаюсь как можно это сделать..

источник

08:38пожаловаться #4

ЕК

Епихин Кирилл... in Data Engineers

Всем доброго дня!
Подскажите плиз, если кто с hue работает, проблема в следующем, есть oozie workflow с параллельным выполнение sqoop job'ов(20 джобов), но одновременно запускаются не более двух job'ов, как это побороть? ((((

источник

11:54пожаловаться #5

ME

Mikhail Epikhin in Data Engineers

Епихин Кирилл

Всем доброго дня!
Подскажите плиз, если кто с hue работает, проблема в следующем, есть oozie workflow с параллельным выполнение sqoop job'ов(20 джобов), но одновременно запускаются не более двух job'ов, как это побороть? ((((

ресурсов хватает в кластере? может квота на пользователя?

источник

12:06пожаловаться #6

ЕК

Епихин Кирилл... in Data Engineers

Mikhail Epikhin

ресурсов хватает в кластере? может квота на пользователя?

дэ кластером это назвать сложно ) там всего одна нода и на ней всё крутится, но по ресурсам должно хватать с избытком: 32 ядра и 64 оперативы.

источник

12:09пожаловаться #7

A

Alex in Data Engineers

Описал десктоп, не самый мощный

источник

12:10пожаловаться #8

ЕК

Епихин Кирилл... in Data Engineers

Епихин Кирилл

дэ кластером это назвать сложно ) там всего одна нода и на ней всё крутится, но по ресурсам должно хватать с избытком: 32 ядра и 64 оперативы.

Так же вручную если запустить sqoop джобы из под ssh, они отрабатывают без проблем параллельно

источник

12:10пожаловаться #9

ЕК

Епихин Кирилл... in Data Engineers

Alex

Описал десктоп, не самый мощный

ну не самый мощный, это понятно ) но для текущих задач, должно хватать без проблем

источник

12:11пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

в последнее время тут плотно пошли микро-кластера, тренд какой-то что ли (при том что в отрасли вовсю обсуждаются 80 ядерные камни, десктопные камни на 32 ядра стали мейнстримом)

источник

12:19пожаловаться #11

ЕК

Епихин Кирилл... in Data Engineers

Anton Zadorozhniy

в последнее время тут плотно пошли микро-кластера, тренд какой-то что ли (при том что в отрасли вовсю обсуждаются 80 ядерные камни, десктопные камни на 32 ядра стали мейнстримом)

дэ сейчас цель не создать большой мощный кластер, а научиться с этим вообще работать.. а мощности докинуть не проблема, по необходимости)
как я понял, если докинуть ща мощностей, то проблема моя не решится )

источник

12:21пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

Епихин Кирилл

дэ сейчас цель не создать большой мощный кластер, а научиться с этим вообще работать.. а мощности докинуть не проблема, по необходимости)
как я понял, если докинуть ща мощностей, то проблема моя не решится )

почему вообще такой стэк и архитектура, у вас взрывной рост какой-то предвидится?

источник

12:22пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

(я без упрека если что, просто интересно)

источник

12:24пожаловаться #14

ЕК

Епихин Кирилл... in Data Engineers

Anton Zadorozhniy

почему вообще такой стэк и архитектура, у вас взрывной рост какой-то предвидится?

дэ нет в общем то )
Планируется забирать данные из 17 источников))

источник

12:26пожаловаться #15

ЕК

Епихин Кирилл... in Data Engineers

но пока б с одним источником разобраться )))))
сейчас забираю данные из PG базы, в целом базу забрать не проблема, а вот с синхронизацией таблиц проблемы)
на просторах интернета вычитал, что это делается sqoop джобами, вот и пытаюсь реализовать )

источник

12:28пожаловаться #16

ЕК

Епихин Кирилл... in Data Engineers

но решение sqoop джобов так себе... это ж на каждую таблицу надо делать отдельный джоб :-/

источник

12:29пожаловаться #17

SK

Sergey Klimov in Data Engineers

Alexander

То есть просто лямда функцию заменить на PandasUDF?

По сути да, вместо udf в вашем примере будет pandas_udf и функция будет принимать pd.Series. За подробностями лучше в документацию глянуть, там подробно описаны различные варианты создания такой udf.

источник

12:30пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

Епихин Кирилл

но решение sqoop джобов так себе... это ж на каждую таблицу надо делать отдельный джоб :-/

sqoop блистает если у вас немного очень больших таблиц, если у вас много маленьких (или вообще нет очень больших таблиц) - то оверхед на вашем "кластере" будет огромный, вам лучше посмотреть на какой-то подходящий ETL инструмент или написать свою выгружалку

источник

12:51пожаловаться #19

ЕК

Епихин Кирилл... in Data Engineers

Anton Zadorozhniy

sqoop блистает если у вас немного очень больших таблиц, если у вас много маленьких (или вообще нет очень больших таблиц) - то оверхед на вашем "кластере" будет огромный, вам лучше посмотреть на какой-то подходящий ETL инструмент или написать свою выгружалку

Большое спасибо!
Пошёл гуглить )

источник

12:56пожаловаться #20