Size: a a a

2021 October 22

MB

Mikhail Butalin in Data Engineers
Подскажите пжлст, какой максимальный рекомендуемый объём дисков на одной ноде? Где почитать про это?
источник

UD

Uncel Duk in Data Engineers
Пока отчеты демон датаноды и сеть вывозит
источник

UD

Uncel Duk in Data Engineers
Из того что есть на рынке, 36x16TB при условии что это актуальный хадуп
источник

D

Dmitry in Data Engineers
Всем привет! Вопрос по спарк на кластере. На драйвер установлен модуль pymorphy2. Определяю udf, где этот модуль используется и возникает ошибка 'no module'. Как я понял на воркерах этого модуля нет. Как пофиксить, подскажите плиз? Может в конфиг   yarn добавить tar файл для того чтобы распределить питон модуль по нодам?
источник

B

BY in Data Engineers
Английский вариант тоже будет или толькл на русском?
источник

GP

Grigory Pomadchin in Data Engineers
не ко мне вопросы) скорее всего только на русском, но @tenKe может и на англе
источник

t

tenKe in Data Engineers
источник

B

BY in Data Engineers
I'd most likely attend the workshop if it was in English)) u menya russkiy ne ochen')
источник

GP

Grigory Pomadchin in Data Engineers
@tenKe can top it to 11 na lubom yazike
источник

t

tenKe in Data Engineers
vashe izi
источник

GP

Grigory Pomadchin in Data Engineers
izi pz
источник

GP

Grigory Pomadchin in Data Engineers
источник

t

tenKe in Data Engineers
источник

TT

Tsh Tsh in Data Engineers
источник

B

BY in Data Engineers
A on na angliyskom toje mojet uroki provesti izi pizi? :)
источник

TT

Tsh Tsh in Data Engineers
источник

B

BY in Data Engineers
источник
2021 October 24

ДК

Дмитро Козак... in Data Engineers
Привет, только изучаю airflow, у меня проблема с ExternalTaskSensor
у меня есть dag_1 и dag_2, dag_1 тригерит dag_2 как только появится файл run, дальше в dag_1 мне надо узнать завершился ли dag_2,  для этого я использую ExternalTaskSensor, и сейчас у меня проблема с тем, что я не знаю как в ExternalTaskSensor мне передать execution_timedelta или execution_date_fn
Думал из dag_2 через xcom отправлять execution_date но не знаю как отловить его в ExternalTaskSensor
источник

Igor  Master in Data Engineers
Всем привет!
Кто поскажет по Spark Streaming'у и дистрибуции задач для Кафка топика.
Правильно я понимаю? Если есть топик на 11 партиций спарк максимум  распараллелит процессинг этого топика на 11 задач
источник

SS

Sergey Sheremeta in Data Engineers
Гуглите fan-out паттерн
источник