Size: a a a

2019 November 01

N

Nikita Blagodarnyy in Data Engineers
Есть всякие pgbulkload. Я лично не трогал, но отзывы позитивные.
источник

АЖ

Андрей Жуков in Data Engineers
быстрее всего фигарить данные в постгрес через стдаут
источник

АЖ

Андрей Жуков in Data Engineers
через jdbc - тлен
источник

N

Nikita Blagodarnyy in Data Engineers
Андрей Жуков
быстрее всего фигарить данные в постгрес через стдаут
Ну постгрес же на другом узле , наверное. Не рядом со спарком стоит.
источник

N

Nikita Blagodarnyy in Data Engineers
Mi
учитвая что ей нужно сохранять консистентность
Это же вставки.
источник

АЖ

Андрей Жуков in Data Engineers
Nikita Blagodarnyy
Ну постгрес же на другом узле , наверное. Не рядом со спарком стоит.
если есть возможность перегнать данные на узел с постгресом - это да, идеально
источник

N

Nikita Blagodarnyy in Data Engineers
Alex
А он разве не пер партишен пишет?
Я имел ввиду кустарно.
источник

M

Mi in Data Engineers
источник

N

Nikita Blagodarnyy in Data Engineers
Андрей Жуков
если есть возможность перегнать данные на узел с постгресом - это да, идеально
Ну тогда возникает передача по сети, запись/чтение с диска, это будет, скорее всего, еще медленнее, чем по jdbc.
источник

M

Mi in Data Engineers
говорят ещё можно размер батча повысить
источник

N

Nikita Blagodarnyy in Data Engineers
Mi
говорят ещё можно размер батча повысить
Это тема. Недавно писал заливку в кликхаус по jdbc, батч 1000 и 100000 по времени пишутся одинаково.
источник

E

Eugene in Data Engineers
Pavel
мы вот уже наткнулись на проблему NFS,  airflow регулярно кидает файлы на нфс, которая на Ceph, случайным образом ловим OSError Input/Output Error
Звучит, как проблема сокетов. Нужно смотреть логи.
источник

P

Pavel in Data Engineers
Eugene
Звучит, как проблема сокетов. Нужно смотреть логи.
там даже трейс включали, не понятно ваапще. более менее заработало когда прописал афинити
источник

OP

O. Petr in Data Engineers
Аирфлоу в кубике на опенстеке под сефом ?
источник

S

Stanislav in Data Engineers
Nikita Blagodarnyy
Ну тогда возникает передача по сети, запись/чтение с диска, это будет, скорее всего, еще медленнее, чем по jdbc.
От размера данных зависит
Гигабайты будет быстрее через копи
источник

P

Pavel in Data Engineers
O. Petr
Аирфлоу в кубике на опенстеке под сефом ?
айрфлоу в кубе от мэйла
источник

P

Pavel in Data Engineers
air собирали весь сам, не пукель
источник

E

Eugene in Data Engineers
Pavel
там даже трейс включали, не понятно ваапще. более менее заработало когда прописал афинити
Афинити на эту ошибку мало влияет. Только если железо разное. И постоянное схлопывание сервисов.
источник

OP

O. Petr in Data Engineers
Pavel
айрфлоу в кубе от мэйла
а, у нас именно сеф+кубик+аир нормально, мейлом не пользовались, а у них же там не сеф вроде должен быть
https://www.youtube.com/watch?v=30yo_xQPfpY
источник

E

Eugene in Data Engineers
Pavel
там даже трейс включали, не понятно ваапще. более менее заработало когда прописал афинити
Паша, нужны логи.
источник