Size: a a a

2020 October 16

R

Roman in Data Engineers
Andrey Smirnov
в 2020 как раз время думать о каких-то мегабайтах
Бывают кейсы, когда стоит думать. Например фат джар у вас весит 200+ мегабайт(что вообще реально), а вашего кода на сотни килобайт. Вы отлаживаете свой код. Но на кластер у вас супер урезанный канал(vpn, или перекладчик из лан в dmz, или ещё какая - то херня). И вот на доставку этих 200+ мегабайт может уходить десятки минут.
источник

ME

Max Efremov in Data Engineers
Alexey Evdokimov
чо за изврат тягать артефакт в авс извне?
разве сложно CI с артефактницей в ec2 засунуть?
мы качали терраформ снаружи при каждом запуске))) Делали кастомный имадж для кодбилда, так он чот вытягивал тот имадж дольше, чем качал терраформ с внешки...
источник

AE

Alexey Evdokimov in Data Engineers
собрал, выложил в с3 сразу, и юзай себе на здоровье
источник

AE

Alexey Evdokimov in Data Engineers
Max Efremov
мы качали терраформ снаружи при каждом запуске))) Делали кастомный имадж для кодбилда, так он чот вытягивал тот имадж дольше, чем качал терраформ с внешки...
ЗАЧЕМ?!!!111адынадын
источник

AS

Andrey Smirnov in Data Engineers
данные как в авс попадают-то? и теперь сравните эти объемы с жалкими мегабайтами фат
источник

ME

Max Efremov in Data Engineers
Alexey Evdokimov
ЗАЧЕМ?!!!111адынадын
с с3 что-то не подумали попробовать...
источник

ME

Max Efremov in Data Engineers
да, через cli просто выкачать, было бы быстрее
источник

AE

Alexey Evdokimov in Data Engineers
мы себе изначально тимсити запихнули в ес2, чтобы собирать артефакты, выкладывать в с3, и ранать кластеры на емр
источник

AE

Alexey Evdokimov in Data Engineers
у нас от 50 до 200 кластеров в неделю отрабатывает. если бы каждый раз приходилось ждать десятки минут, пока фатжар загрузится...
источник

AE

Alexey Evdokimov in Data Engineers
чисто для иллюстрации:
источник

AE

Alexey Evdokimov in Data Engineers
источник

AE

Alexey Evdokimov in Data Engineers
номер билда
источник

AE

Alexey Evdokimov in Data Engineers
и это только один из кучи процессов, у нас их с десятки сейчас
источник

AE

Alexey Evdokimov in Data Engineers
так что развернуть CI в облаке, если массово запускаешься в облаке — это первое, что надо сделать
источник

А

Алексей in Data Engineers
подскажите, если через spark.jdbc запущена долгая выгрузка в 1 сессию, то где можно посмотреть, сколько уже скачалось? Может в hdfs tmp целевой таблицы где то файл создается?
источник

A

Alex in Data Engineers
привет ! а с dbt кто-то дело имел ? Можете на пальцах рассказать когда его стоит использовать ?
источник

МА

Максим Аникин... in Data Engineers
Когда ETL на sql-скриптах и не юзаешь вертику.
источник

AK

Alex Krash in Data Engineers
Максим Аникин
Когда ETL на sql-скриптах и не юзаешь вертику.
а при чем тут вертика?
источник

МА

Максим Аникин... in Data Engineers
Нативно не умеет в вертику. Вроде...
источник

A

Alex in Data Engineers
они говорят что они только Т из ETL
источник