Size: a a a

2020 August 31

K

KrivdaTheTriewe in Data Engineers
еще можно hadoop fs distcp s3:// hdfs://
источник

GP

Grigory Pomadchin in Data Engineers
KrivdaTheTriewe
еще можно hadoop fs distcp s3:// hdfs://
так это вроде то что у Алексея в коде +-
источник

K

KrivdaTheTriewe in Data Engineers
Alexey Evdokimov
это всё равно капец медленно
почему это медленно
источник

K

KrivdaTheTriewe in Data Engineers
Grigory Pomadchin
так это вроде то что у Алексея в коде +-
но у него вантаймеп
источник

AE

Alexey Evdokimov in Data Engineers
да, но у меня уровень параллелизма выше
источник

K

KrivdaTheTriewe in Data Engineers
с фиксированным форматом хранения
источник

GP

Grigory Pomadchin in Data Engineers
ну ты придираешься
источник

GP

Grigory Pomadchin in Data Engineers
тебе просто надо от больше тулов унифицированности, а Алексею - скорости
источник

K

KrivdaTheTriewe in Data Engineers
Alexey Evdokimov
да, но у меня уровень параллелизма выше
чем число файлов?
источник

GP

Grigory Pomadchin in Data Engineers
вы о разных вещах сейчас вообще говорите
источник

AE

Alexey Evdokimov in Data Engineers
опять же, если бы был нормальный инструмент, я ни за что не стал бы писать свой. изобретать велосипед — неэффективно
источник

K

KrivdaTheTriewe in Data Engineers
Grigory Pomadchin
вы о разных вещах сейчас вообще говорите
я не верю что оно быстрее
источник

AE

Alexey Evdokimov in Data Engineers
но если подходящего нет, то можно и написать. и выиграть по времени от 10 до 50 раз
источник

AE

Alexey Evdokimov in Data Engineers
KrivdaTheTriewe
я не верю что оно быстрее
так проверь, фомушка
источник

K

KrivdaTheTriewe in Data Engineers
я проверял свой вариант и он быстрый
источник

K

KrivdaTheTriewe in Data Engineers
минуты
источник

K

KrivdaTheTriewe in Data Engineers
кода меньше, компоненты стандартные
источник

K

KrivdaTheTriewe in Data Engineers
нет никакого бойлерплейта утащенного из  других проетков, котрый нужно поддерживать
источник

AE

Alexey Evdokimov in Data Engineers
на каком кластере и сколько на с3 ты проверял.
источник

AE

Alexey Evdokimov in Data Engineers
у меня объёмы в терабайты (десятки тысяч паркетов) и екластеры от 5 до 10 узлов c4.2xlarge
источник