Size: a a a

2020 October 02

N

Nikita Blagodarnyy in Data Engineers
Андрей Жуков
Там не в табличку пишется?
да нет, просто по пути
df.write.mode("append").partitionBy("opd_day").parquet(hdfsPath)
источник

MB

Mikhail Butalin in Data Engineers
Denis Tsvetkov
или они могут быть в safe mode, пока не все дата ноды скинули им block reports
падала одна неймнода, а переключение почемуто не прошло.
Пытался руками, но меня обматерило
источник

N

Nikita Blagodarnyy in Data Engineers
Alexey Evdokimov
по крайней мере, такой случай выглядит точно так же
в этот момент все таски уже саксидед?
источник

AL

Anton Lashin in Data Engineers
Nikita Blagodarnyy
да нет, просто по пути
df.write.mode("append").partitionBy("opd_day").parquet(hdfsPath)
перемещает файлы из _temporary в конечную директорию?
источник

AE

Alexey Evdokimov in Data Engineers
Nikita Blagodarnyy
в этот момент все таски уже саксидед?
да. и выглядит как будто ничего не происходит
источник

AL

Anton Lashin in Data Engineers
в этом случае все таски будут завершены уже
источник

АЖ

Андрей Жуков... in Data Engineers
Nikita Blagodarnyy
в этот момент все таски уже саксидед?
Да,  может писать и проверять мету
источник

AE

Alexey Evdokimov in Data Engineers
угу, так оно
источник

АЖ

Андрей Жуков... in Data Engineers
Возможно,  там охрениллиард файлов
источник

АЖ

Андрей Жуков... in Data Engineers
Или хдфс нездоровится
источник

N

Nikita Blagodarnyy in Data Engineers
Андрей Жуков
Возможно,  там охрениллиард файлов
да нет, штук 200, не больше
источник

АЖ

Андрей Жуков... in Data Engineers
Ну я в таких случаях ставлю дебаг и курю логи.
источник

АЖ

Андрей Жуков... in Data Engineers
Сеть,  диски,  айноды
источник

AE

Alexey Evdokimov in Data Engineers
очень редко бывает что падает какой-нить тред с оом и такая же картина. в логах будет ошибка 134
источник

AE

Alexey Evdokimov in Data Engineers
т.е. если екзекутор не успевает драйверу ничего отрепортить, и тот ждёт до бесконечности. поймать сложно.
источник

SS

Sergey Sheremeta in Data Engineers
коллеги!!!
как эту хреновину лечить?

Caused by: java.lang.RuntimeException: hdfs://hrenovina/data/bronze/shit/kafka_dt=2020-10-02/kafka_hh=13/part-00007-ffbb12cb-0cf2-4cc3-a202-d72febecb483.c000.snappy.parquet is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [117, 108, 108, 125]
источник

ПФ

Паша Финкельштейн... in Data Engineers
Sergey Sheremeta
коллеги!!!
как эту хреновину лечить?

Caused by: java.lang.RuntimeException: hdfs://hrenovina/data/bronze/shit/kafka_dt=2020-10-02/kafka_hh=13/part-00007-ffbb12cb-0cf2-4cc3-a202-d72febecb483.c000.snappy.parquet is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [117, 108, 108, 125]
А что говорят паркет-тулзы?
источник

ПФ

Паша Финкельштейн... in Data Engineers
Это точно паркет?
источник

ПФ

Паша Финкельштейн... in Data Engineers
Можешь попробовать открыть нашими big data tools
источник

ME

Max Efremov in Data Engineers
Sergey Sheremeta
коллеги!!!
как эту хреновину лечить?

Caused by: java.lang.RuntimeException: hdfs://hrenovina/data/bronze/shit/kafka_dt=2020-10-02/kafka_hh=13/part-00007-ffbb12cb-0cf2-4cc3-a202-d72febecb483.c000.snappy.parquet is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [117, 108, 108, 125]
У него и в конце сигнатура? Забавно
источник