+ стоит избежать инициализации модели на каждый скаляр или вектор в udf, тоже может съедать производительность. Но тогда не всегда можно легко забродкастить модель. Был случай, когда в либе где-то в кишках были статические поля, которые превращались в тыкву при бродкасте объекта.
Всем доброго дня! Подскажите плиз, если кто с hue работает, проблема в следующем, есть oozie workflow с параллельным выполнение sqoop job'ов(20 джобов), но одновременно запускаются не более двух job'ов, как это побороть? ((((
Всем доброго дня! Подскажите плиз, если кто с hue работает, проблема в следующем, есть oozie workflow с параллельным выполнение sqoop job'ов(20 джобов), но одновременно запускаются не более двух job'ов, как это побороть? ((((
ресурсов хватает в кластере? может квота на пользователя?
в последнее время тут плотно пошли микро-кластера, тренд какой-то что ли (при том что в отрасли вовсю обсуждаются 80 ядерные камни, десктопные камни на 32 ядра стали мейнстримом)
в последнее время тут плотно пошли микро-кластера, тренд какой-то что ли (при том что в отрасли вовсю обсуждаются 80 ядерные камни, десктопные камни на 32 ядра стали мейнстримом)
дэ сейчас цель не создать большой мощный кластер, а научиться с этим вообще работать.. а мощности докинуть не проблема, по необходимости) как я понял, если докинуть ща мощностей, то проблема моя не решится )
дэ сейчас цель не создать большой мощный кластер, а научиться с этим вообще работать.. а мощности докинуть не проблема, по необходимости) как я понял, если докинуть ща мощностей, то проблема моя не решится )
почему вообще такой стэк и архитектура, у вас взрывной рост какой-то предвидится?
но пока б с одним источником разобраться ))))) сейчас забираю данные из PG базы, в целом базу забрать не проблема, а вот с синхронизацией таблиц проблемы) на просторах интернета вычитал, что это делается sqoop джобами, вот и пытаюсь реализовать )
То есть просто лямда функцию заменить на PandasUDF?
По сути да, вместо udf в вашем примере будет pandas_udf и функция будет принимать pd.Series. За подробностями лучше в документацию глянуть, там подробно описаны различные варианты создания такой udf.
но решение sqoop джобов так себе... это ж на каждую таблицу надо делать отдельный джоб :-/
sqoop блистает если у вас немного очень больших таблиц, если у вас много маленьких (или вообще нет очень больших таблиц) - то оверхед на вашем "кластере" будет огромный, вам лучше посмотреть на какой-то подходящий ETL инструмент или написать свою выгружалку
sqoop блистает если у вас немного очень больших таблиц, если у вас много маленьких (или вообще нет очень больших таблиц) - то оверхед на вашем "кластере" будет огромный, вам лучше посмотреть на какой-то подходящий ETL инструмент или написать свою выгружалку