Size: a a a

2021 March 22

AE

Alexey Evdokimov in Data Engineers
ИМХО лучше сразу спросить, а понимаешь ли ты поверх чего SQL работает
источник

ЕГ

Евгений Глотов... in Data Engineers
А то, что датафрейм апи уже не особо завязан на рдд, и там куча с этим вопросом теперь связано нюансов?
источник

А

Алексей in Data Engineers
Nikita Blagodarnyy
Потому что русские погромисты отвечали бы ему известной шуткой. -Матей, сколько партиций? -300.
логично, запомню
источник

ЕГ

Евгений Глотов... in Data Engineers
Ок, ты понимаешь, как работает rdd, значит ли это, что ты понимаешь, как работает датафрейм апи? Нет)
источник

PK

Pavel Klemenkov in Data Engineers
Евгений Глотов
Не понимаю, зачем в курсах первым идёт RDD, если бОльшая часть людей приходит из аналитики, и хорошо знают SQL, а не из разработки
Батлили на эту тему с @asm0dey в Moscow Spark. Если коротко, моя позиция, что RDD достаточно простой и компактный, чтобы показать архитектуру и работу с партишенерами
источник

NN

No Name in Data Engineers
Alexey Evdokimov
вот в этом-то и проблема. если люди не понимают как работают кишки, вряд ли они смогут обеспечить должный перфоманс
У меня рдд вылетают из головы в течение недели после того, как я что-то на этом уровне делаю, и вообще никак не помогает ни с оптимизацией датафреймов, ни с пониманием кишок (тут гораздо больше сорсы помогут)
источник

NN

No Name in Data Engineers
Pavel Klemenkov
Батлили на эту тему с @asm0dey в Moscow Spark. Если коротко, моя позиция, что RDD достаточно простой и компактный, чтобы показать архитектуру и работу с партишенерами
Ну вот только ручные партишенеры мне были интересны, да
источник

AE

Alexey Evdokimov in Data Engineers
Pavel Klemenkov
Батлили на эту тему с @asm0dey в Moscow Spark. Если коротко, моя позиция, что RDD достаточно простой и компактный, чтобы показать архитектуру и работу с партишенерами
^ this
источник

AE

Alexey Evdokimov in Data Engineers
нужно чтобы человек был способен объяснить общий принцип
источник

ЕГ

Евгений Глотов... in Data Engineers
Pavel Klemenkov
Батлили на эту тему с @asm0dey в Moscow Spark. Если коротко, моя позиция, что RDD достаточно простой и компактный, чтобы показать архитектуру и работу с партишенерами
Согласен, что для разработчиков показать новый апи и как он работает - всё ок
источник

ЕГ

Евгений Глотов... in Data Engineers
Для аналитиков надо сверху спускаться - рассказать, как работает джойн, куда чего по хэшу перекладывается
источник

ЕГ

Евгений Глотов... in Data Engineers
И зачем
источник

ЕГ

Евгений Глотов... in Data Engineers
И вот тут уже возникают какие-то партиции с рядами)
источник

NN

No Name in Data Engineers
+
источник

AE

Alexey Evdokimov in Data Engineers
исходный вопрос был про вопросы для "хадуп/спарк инженера" что бы это ни значило
источник

AE

Alexey Evdokimov in Data Engineers
не про аналитика
источник

ЕГ

Евгений Глотов... in Data Engineers
Ну короче мы выяснили, что даже ответы на вопросы зависят от специфики работы, например
источник

ЕГ

Евгений Глотов... in Data Engineers
Nikita Blagodarnyy
почему 200, если еще шафла никакого не было?
Вот тут подловили)
источник

PK

Pavel Klemenkov in Data Engineers
Евгений Глотов
Для аналитиков надо сверху спускаться - рассказать, как работает джойн, куда чего по хэшу перекладывается
По поводу «надо» - это вопрос методологии, конечно, от человека сильно зависит. Кто-то любит академический подход, кто-то практический, тут нужно экспериментировать с ЦА
источник

ЕГ

Евгений Глотов... in Data Engineers
Pavel Klemenkov
По поводу «надо» - это вопрос методологии, конечно, от человека сильно зависит. Кто-то любит академический подход, кто-то практический, тут нужно экспериментировать с ЦА
Обучение на продакшене
источник