Size: a a a

2019 November 01

P

Pavel in Data Engineers
Андрей Жуков
@invade_r такое задумывал
и как? получилось у него?))
источник

АЖ

Андрей Жуков in Data Engineers
Pavel
и как? получилось у него?))
Ну я его призвал,  расскажет при случае :)
источник

E

Eugene in Data Engineers
Андрей Жуков
Ну я его призвал,  расскажет при случае :)
Привет!) Пока нет. У нас инфраструктура в k8. Но Хадуп мы пока там не разворачивали. Это в планах на конец 20-го года.
источник

E

Eugene in Data Engineers
С другой стороны, лично я ничего сложного в этом не вижу.
источник

E

Eugene in Data Engineers
Если будут прикладные задачи, готов помочь.
источник

P

Pavel in Data Engineers
Eugene
С другой стороны, лично я ничего сложного в этом не вижу.
ага, все мы так
источник

P

Pavel in Data Engineers
источник

E

Eugene in Data Engineers
Pavel
ага, все мы так
Не было ещё ни одной проблемы, с к8, которую мы не решили.)
источник

P

Pavel in Data Engineers
Eugene
Не было ещё ни одной проблемы, с к8, которую мы не решили.)
так у вас пока хдфса нет, потому и не было)))
источник

P

Pavel in Data Engineers
Eugene
Не было ещё ни одной проблемы, с к8, которую мы не решили.)
мы вот уже наткнулись на проблему NFS,  airflow регулярно кидает файлы на нфс, которая на Ceph, случайным образом ловим OSError Input/Output Error
источник

VP

Vitaly Petrov in Data Engineers
Привет!
Кто-нибудь может подсказать, как ускорить заливку данных из pyspark-овского датафрейма в Postgre-SQL базу? Сейчас льется примерно три часа, для сравнения, тот же датафрейм, но в Хайв, заливается за ~12 минут. Использую jbdc-postgre драйвер
источник

RI

Rustam Iksanov in Data Engineers
Vitaly Petrov
Привет!
Кто-нибудь может подсказать, как ускорить заливку данных из pyspark-овского датафрейма в Postgre-SQL базу? Сейчас льется примерно три часа, для сравнения, тот же датафрейм, но в Хайв, заливается за ~12 минут. Использую jbdc-postgre драйвер
мб коммиты после каждой вставке?
источник

N

Nikita Blagodarnyy in Data Engineers
Vitaly Petrov
Привет!
Кто-нибудь может подсказать, как ускорить заливку данных из pyspark-овского датафрейма в Postgre-SQL базу? Сейчас льется примерно три часа, для сравнения, тот же датафрейм, но в Хайв, заливается за ~12 минут. Использую jbdc-postgre драйвер
Сделать 10 датафреймов вместо 1 и писать параллельно в постгрес в 10 потоков.
источник

A

Alex in Data Engineers
Vitaly Petrov
Привет!
Кто-нибудь может подсказать, как ускорить заливку данных из pyspark-овского датафрейма в Postgre-SQL базу? Сейчас льется примерно три часа, для сравнения, тот же датафрейм, но в Хайв, заливается за ~12 минут. Использую jbdc-postgre драйвер
Так в хайв это же записать файлы на диск и создать метаданные в хайв
источник

A

Alex in Data Engineers
Что-то я сомневаюсь что даже через параллельную запись добьётесь такой же скорости
источник

A

Alex in Data Engineers
Nikita Blagodarnyy
Сделать 10 датафреймов вместо 1 и писать параллельно в постгрес в 10 потоков.
А он разве не пер партишен пишет?
источник

M

Mi in Data Engineers
на уровне бд эта параллельность будет не очень быстрой
источник

N

Nikita Blagodarnyy in Data Engineers
Alex
Что-то я сомневаюсь что даже через параллельную запись добьётесь такой же скорости
Ну такой же точно не получится, но точно быстрее будет. Если в постгресе не 2 ядра, конечно.
источник

M

Mi in Data Engineers
учитвая что ей нужно сохранять консистентность
источник

C

Combot in Data Engineers
Big Launch has been banned! Reason: CAS ban.
источник