Size: a a a

2020 December 10

AT

Al T in Data Engineers
как минимум некошерно )
источник

ME

Max Efremov in Data Engineers
А в Dataproc ещё третий спарк не завезли?
источник

ME

Mikhail Epikhin in Data Engineers
Max Efremov
А в Dataproc ещё третий спарк не завезли?
там есть отдельный образ для этого
источник

ME

Mikhail Epikhin in Data Engineers
источник

ME

Max Efremov in Data Engineers
Ага, вроде два последних. А они норм, можно пользоваться?
источник

ME

Mikhail Epikhin in Data Engineers
Max Efremov
Ага, вроде два последних. А они норм, можно пользоваться?
ну пользоваться можно, но там могут быть баги, надо доносить обратную связь в саппорт:)
источник

IS

Ilja Shaposhnikov in Data Engineers
Добрый вечер, может кто подсказать по следующей ситуации: запускаю bash-команду используя API yarn, после чего проверяю какие у него настройки по timeout'ам:
<type>LIFETIME</type>
<expiryTime>UNLIMITED</expiryTime>
<remainingTimeInSeconds>-1</remainingTimeInSeconds>


Тем не менее, через 20 минут процесс завершается с ошибкой "ApplicationMaster for attempt appattempt_xxx_000002 timed out".

Как это пофиксить?
источник

A

Alex in Data Engineers
для начала почитать про ярн
источник

A

Alex in Data Engineers
ап мастер должен стартануть и зарегистрироваться в ярне и нодеменеджере
а уже контейнеры которые он запускает на его совести, хоть sleep 100500
те контейнеры уже на его совести хотят репортят мастеру, хотят просто что-то делают

можете посмотреть как сделать апп мастер для distributed shell
источник

A

Alex in Data Engineers
источник

A

Alex in Data Engineers
а раз у вас обычная баш команда, то она не отрепортила ярну что приложение запущено, он подождал и потом убил процесс
источник

IS

Ilja Shaposhnikov in Data Engineers
Alex
а раз у вас обычная баш команда, то она не отрепортила ярну что приложение запущено, он подождал и потом убил процесс
Возможно ли командой bash зарепортить yarn'y про запуск приложения? (без Java)
источник

A

Alex in Data Engineers
через рест ендпоинты можно
но у вас должен быть аппмастер
сделаете вы его на java/python/go ваше право

https://github.com/hortonworks/gohadoop

но там вроде старый апи для хадупа ещё был и мне не подошёл в своё время
источник

IS

Ilja Shaposhnikov in Data Engineers
Alex
через рест ендпоинты можно
но у вас должен быть аппмастер
сделаете вы его на java/python/go ваше право

https://github.com/hortonworks/gohadoop

но там вроде старый апи для хадупа ещё был и мне не подошёл в своё время
Спасибо! Пойду тестировать
источник

A

Alex in Data Engineers
я бы посоветовал начать с чтения что такое ярн и как у него контейнеры работают
источник

A

Alex in Data Engineers
источник

A

Alex in Data Engineers
апп мастер должен быть, это не кубик где можно один контейнер запустить и радоваться
источник

DM

Dave Manukian in Data Engineers
Привет! Подскажите пожалуйста кто-нибудь делал upsert (хотя бы каким-то образом) в postgresql/mysql используя spark ss? Я понимаю возможно это ненормально так делать, но столкнулся с такой задачей. Нашел такой пример, но немножко смущает использование broadcast'a https://medium.com/@thomaspt748/how-to-upsert-data-into-relational-database-using-spark-7d2d92e05bb9
источник

AT

Al T in Data Engineers
а разве из спарка  нельзя делать insert on duplicate key update  для mysql например ?
источник

DM

Dave Manukian in Data Engineers
Al T
а разве из спарка  нельзя делать insert on duplicate key update  для mysql например ?
не пробовал еще, сейчас буду изучать все варианты и пробовать, надеюсь получится :) Просто ладно еще батчем делать это, но в стримингом вообще похерить можно легко, тем более в реляционку
источник