Size: a a a

2020 August 31

K

KrivdaTheTriewe in Data Engineers
это будет явно полезней и понятней
источник

GP

Grigory Pomadchin in Data Engineers
KrivdaTheTriewe
это будет явно полезней и понятней
ну ты не делал кастомных сорсов
источник

K

KrivdaTheTriewe in Data Engineers
Grigory Pomadchin
ну кастомный сорс аргумент да
а тут пайлайн который нормально пилится запускается из main
источник

K

KrivdaTheTriewe in Data Engineers
Grigory Pomadchin
ну ты не делал кастомных сорсов
не делал, потому что обошлись другим
источник

GP

Grigory Pomadchin in Data Engineers
KrivdaTheTriewe
не делал, потому что обошлись другим
ну и какие вопросы)
источник

A

Alex in Data Engineers
Grigory Pomadchin
ну кастомный сорс аргумент да
да вроде уже говорилось что там и проходов нужно не один, а множество, поэтому кастомный сорс не сильно поможет
источник

K

KrivdaTheTriewe in Data Engineers
но оно все встраивается
источник

GP

Grigory Pomadchin in Data Engineers
Alex
да вроде уже говорилось что там и проходов нужно не один, а множество, поэтому кастомный сорс не сильно поможет
темболее
источник

A

Alex in Data Engineers
причем в этом же чате было обсуждение что скачать по быстрому на hdfs один раз и запустить множество проходов оказывается в разы быстрее чем гонять по s3 каждый проход
источник

ИК

Иван Калининский... in Data Engineers
Andrey Smirnov
а зачем так много памяти, если все должно уйти на экзекуютеры
Затем, что экзекуторы отправляют информацию о результате на драйвер, всегда так было, кроме того «много» - понятие относительное, кому и 64 Гб на драйвере - только для проверки, на пром будет больше 100
источник

K

KrivdaTheTriewe in Data Engineers
Alex
причем в этом же чате было обсуждение что скачать по быстрому на hdfs один раз и запустить множество проходов оказывается в разы быстрее чем гонять по s3 каждый проход
да можно так сделать то
источник

K

KrivdaTheTriewe in Data Engineers
причем можно просто заперситить на дисках спакровых
источник

K

KrivdaTheTriewe in Data Engineers
и будет точно такая же логика, но в несколько десятков строчек, которую сможет прочитать любой человек пишущий на спарке
источник

AE

Alexey Evdokimov in Data Engineers
пугает меня такой фанатизм в людях.

btw, 90% "стандартных" методов становятся таковыми по случайности, а не потому что лучше продуманы. кто первее и громче, того и шляпа. и на долю анонимусов из интернета достаётся вечное бодание с кривдами, которые во всём хотят видеть "стандартный способ". такая инверсия 'not invented here' синдрома
источник

AE

Alexey Evdokimov in Data Engineers
понимаю, почему. но не поддерживаю.
источник

AE

Alexey Evdokimov in Data Engineers
опять же btw, я 15 лет занимаюсь ревью кода джунов, и мне код анонимуса из интернетов не страшен. я врублюсь, если надо. даже если он левой задней ногой написан. и извлеку рациональ, если она там есть.
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexey Evdokimov
дистцп — тормознутое говно, написанное кем-то не сильно трезвым в тёмную октябрьскую ночь
а есть ссылка на ваш PR который правит эти проблемы?
источник

А

Алексей in Data Engineers
Подскажите по Future, если часть из них упала с exception, то как их разделить на 2 кучки: удачные и ошибки?
val res = dbs.map(db => Future( ... ) )
val reswt = Future.sequence(res)
Await.result(reswt, scala.concurrent.duration.Duration.Inf)
res
.filter(???)
источник

GP

Grigory Pomadchin in Data Engineers
Алексей
Подскажите по Future, если часть из них упала с exception, то как их разделить на 2 кучки: удачные и ошибки?
val res = dbs.map(db => Future( ... ) )
val reswt = Future.sequence(res)
Await.result(reswt, scala.concurrent.duration.Duration.Inf)
res
.filter(???)
Future.sequence(res.map(_.transform(Success(_))))
источник

GP

Grigory Pomadchin in Data Engineers
Future.transform посмотри
источник