Size: a a a

2021 January 14

KS

K S in Data Engineers
Наш архитектор предложил сделать оркестрацию через step functions, а выполнение через glue pyspark.
источник

GP

Grigory Pomadchin in Data Engineers
можно
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
степ функции стати с кубером работать умеют
источник

KS

K S in Data Engineers
Grigory Pomadchin
смотря что те надо, это (как по мне) дорогой и неудобный тул для етла поверх спарка; хочешь менеджед Спарк пускай на емр или к8с
Как альтернативу предложил запускать контейнеры с golang кодом для тех же целей, но я не уверен насколько там хорошо поддерживается parquet.
источник

λ

λoλdog in Data Engineers
Grigory Pomadchin
fake; читать лучш над чо там закопали они
Это первый шаг, все норм посоны уже давно на други cri реализациях
источник

GP

Grigory Pomadchin in Data Engineers
λoλdog
Это первый шаг, все норм посоны уже давно на други cri реализациях
ну идея в том что докер будет компатнен с ними и все да
источник

GP

Grigory Pomadchin in Data Engineers
Они какой-то старый костыль прост удалять хотят
источник

GP

Grigory Pomadchin in Data Engineers
λoλdog
Это первый шаг, все норм посоны уже давно на други cri реализациях
на каких, расскажи кстати, что они используют
источник

A

Alex in Data Engineers
вообще неймспейсы скоро из линукс ядра выпилят
источник

GP

Grigory Pomadchin in Data Engineers
K S
Как альтернативу предложил запускать контейнеры с golang кодом для тех же целей, но я не уверен насколько там хорошо поддерживается parquet.
Не знаю как ты пайспарк и голанг сраниваешь но почему бы и нет
источник

KS

K S in Data Engineers
Grigory Pomadchin
Не знаю как ты пайспарк и голанг сраниваешь но почему бы и нет
Я не сравниваю, просто идёт пропихивание голанга как убивца связки спарк+питон. О том, что многопоточность далеко не всё, что нужно для дата пайплайна, игнорируется.
источник

GP

Grigory Pomadchin in Data Engineers
я не знаю как Голанг убивает спарка, если он и правда убивает то может или ты не все рассказываешь или вам пуспарк не нужен
источник

GP

Grigory Pomadchin in Data Engineers
если тебе над на одной машине маленькие паркеты считать чёт сделать с ними и положить куда-то то пайспарк не нужен
источник

GP

Grigory Pomadchin in Data Engineers
А так без понятия что у вас происходит))
источник

λ

λoλdog in Data Engineers
Grigory Pomadchin
на каких, расскажи кстати, что они используют
Я тебе прост напомню что мы например на crio сидим )
источник

KS

K S in Data Engineers
Grigory Pomadchin
если тебе над на одной машине маленькие паркеты считать чёт сделать с ними и положить куда-то то пайспарк не нужен
Ну по идее так и есть, нужно читать и обрабатывать либо Json, либо parquet, либо зипы с вложенными папками и файлами и заливать их в s3 bucket.
источник

GP

Grigory Pomadchin in Data Engineers
λoλdog
Я тебе прост напомню что мы например на crio сидим )
а точно, а чо Гугл тож на крио?
источник

λ

λoλdog in Data Engineers
Гугл хз
источник

λ

λoλdog in Data Engineers
Но думаю тож не на докере (
источник