Size: a a a

2021 March 22

P

Pavel in Data Engineers
мне на пошлой работе аналитики дали 10Тб гзипнутых архивов с csv, и говорят: ну, через спарк прогони, быстро же ёпт))
источник

NN

No Name in Data Engineers
Andrey Smirnov
это должно быть маркером, если ты сам этого не знаешь, то смысл других спрашивать?
Само собой, я подразумеваю, что ты знаешь ответы на собственные вопросы.
источник

AE

Alexey Evdokimov in Data Engineers
а ты им такой в ответ ЛОЛШАФЛ?
источник

AE

Alexey Evdokimov in Data Engineers
ну-ну
источник

А

Алексей in Data Engineers
Евгений Глотов
Только человек должен понимать, почему 200, и почему оно по дефолту
почему, кстати, 200, а не 300? кто выдумал это волшебное число?
источник

NN

No Name in Data Engineers
Alexey Evdokimov
в таком вопрос столько всякой подкапотной фигни, что разбирать можно целый день. только надо ли
А что надо?
источник

N

Nikita Blagodarnyy in Data Engineers
Алексей
почему, кстати, 200, а не 300? кто выдумал это волшебное число?
Матей Захария
источник

А

Алексей in Data Engineers
Nikita Blagodarnyy
Матей Захария
это его любимое число?
источник

PK

Pavel Klemenkov in Data Engineers
Алексей
это его любимое число?
Он не может внятно ответить почему
источник

PK

Pavel Klemenkov in Data Engineers
И самое забавное, что оно настолько магическое, что его не меняют на протяжении всей истории Спарка
источник

ЕГ

Евгений Глотов... in Data Engineers
Алексей
почему, кстати, 200, а не 300? кто выдумал это волшебное число?
Соотношение количества ядер в кластере и количества файлов в хдфс)
источник

AE

Alexey Evdokimov in Data Engineers
No Name
А что надо?
точно не магические константы. общие принципы, концепты, паттерны. понимание сути того что вообще происходит.

не "сколько партиций", а "зачем партиции" и "как правильно подобрать размер"
источник

P

Pavel in Data Engineers
Alexey Evdokimov
точно не магические константы. общие принципы, концепты, паттерны. понимание сути того что вообще происходит.

не "сколько партиций", а "зачем партиции" и "как правильно подобрать размер"
ну и это тоже, да
источник

ЕГ

Евгений Глотов... in Data Engineers
Alexey Evdokimov
а до spark.sql ещё добраться надо, эт далеко не первый вопрос
С бизнесовой точки зрения добираются до rdd сильно после датафреймов, а чаще всего вообще не добираются, зачем по ним спрашивать?
источник

ЕГ

Евгений Глотов... in Data Engineers
Не понимаю, зачем в курсах первым идёт RDD, если бОльшая часть людей приходит из аналитики, и хорошо знают SQL, а не из разработки
источник

ЕГ

Евгений Глотов... in Data Engineers
И им на первой лекции так: а вот вам RDD, мучайтесь
источник

NN

No Name in Data Engineers
Alexey Evdokimov
точно не магические константы. общие принципы, концепты, паттерны. понимание сути того что вообще происходит.

не "сколько партиций", а "зачем партиции" и "как правильно подобрать размер"
Ну, как бы, для того, чтобы ответить на вопрос "сколько партиций", придется ответить на вопрос "как правильно подобрать размер". Ну и без знания некоторых магических констант будет нифига непонятно, как управлять результатами шаффла в джобе без ручного вмешательства и репартишена/коалеска после каждого стейджа.
источник

AE

Alexey Evdokimov in Data Engineers
Евгений Глотов
С бизнесовой точки зрения добираются до rdd сильно после датафреймов, а чаще всего вообще не добираются, зачем по ним спрашивать?
вот в этом-то и проблема. если люди не понимают как работают кишки, вряд ли они смогут обеспечить должный перфоманс
источник

ЕГ

Евгений Глотов... in Data Engineers
Alexey Evdokimov
вот в этом-то и проблема. если люди не понимают как работают кишки, вряд ли они смогут обеспечить должный перфоманс
Люди понимают, что делает sql, после этого первым делом им нужно объяснить верхнеуровнево, как он исполняется
источник

N

Nikita Blagodarnyy in Data Engineers
Алексей
почему, кстати, 200, а не 300? кто выдумал это волшебное число?
Потому что русские погромисты отвечали бы ему известной шуткой. -Матей, сколько партиций? -300.
источник