Size: a a a

2019 December 06

DZ

Dmitry Zuev in Data Engineers
так то я был уверен что ты знаешь про эту штуку
источник

DZ

Dmitry Zuev in Data Engineers
А что касаемо петонистов, я никак не забуду как чувак сказал что спарк говно тк даже медиану нормально посчитать не может, а вот пандас может
источник

DZ

Dmitry Zuev in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
Dmitry Zuev
А что касаемо петонистов, я никак не забуду как чувак сказал что спарк говно тк даже медиану нормально посчитать не может, а вот пандас может
ах вот ты к чему; и он сразу же предложил сделать редьюс на драйвер всего датафрейма?
источник

ЕГ

Евгений Глотов in Data Engineers
Dmitry Zuev
Ну вот врядли дата тим шарит код с сотонистами
Мы не только шарим, мы бывает садимся и код друг за друга дописываем прямо в их ноутбучик, потому что так получается быстрее)
источник

DZ

Dmitry Zuev in Data Engineers
Grigory Pomadchin
ах вот ты к чему; и он сразу же предложил сделать редьюс на драйвер всего датафрейма?
df.collect().toPandas().median()
источник

DZ

Dmitry Zuev in Data Engineers
Евгений Глотов
Мы не только шарим, мы бывает садимся и код друг за друга дописываем прямо в их ноутбучик, потому что так получается быстрее)
Но в этом отличие инженера от неинженера.
Ты садишься и пишешь начем надо. Максимум ворчишь в процессе
источник

ЕГ

Евгений Глотов in Data Engineers
Dmitry Zuev
А что касаемо петонистов, я никак не забуду как чувак сказал что спарк говно тк даже медиану нормально посчитать не может, а вот пандас может
Ну, кстати, может же, select(expr("percentile(0.5, feature)"))
источник

DZ

Dmitry Zuev in Data Engineers
Евгений Глотов
Ну, кстати, может же, select(expr("percentile(0.5, feature)"))
да, approxQuantile
источник

DZ

Dmitry Zuev in Data Engineers
но этоже APPROX
источник

DZ

Dmitry Zuev in Data Engineers
а в пандас все четенько
источник

DZ

Dmitry Zuev in Data Engineers
Dmitry Zuev
Но в этом отличие инженера от неинженера.
Ты садишься и пишешь начем надо. Максимум ворчишь в процессе
Но как инженер, тебя должно тянуть к прекрасному (не питону, не xml конфигам, не раскаткой окружения через venv).
источник

GT

Gennady Timofeev in Data Engineers
Евгений Глотов
Ну, кстати, может же, select(expr("percentile(0.5, feature)"))
Самое смешное, что действительно нормально работает, да и ещё с даблами, и не надо городить монстров, как в хайве
источник

В

Вадим in Data Engineers
Dmitry Zuev
Но в этом отличие инженера от неинженера.
Ты садишься и пишешь начем надо. Максимум ворчишь в процессе
Так какая разница на чем писать? Если есть желание именно кодить и именно на определенном языке - это другая профессия
источник

В

Вадим in Data Engineers
Ну а если ты инжир по неволе - рынку нужны таланты
источник

В

Вадим in Data Engineers
Выбирай любую другую профу
источник

DZ

Dmitry Zuev in Data Engineers
Вадим
Так какая разница на чем писать? Если есть желание именно кодить и именно на определенном языке - это другая профессия
Лишь в стремлении к чему то хорошему.
Собсна Спарк на скале меня в инжиры и завёл.
Помню предлагали куда-то инжирить, но у них 80% были плюсы. И не то чтобы меня это напрягало
источник

DZ

Dmitry Zuev in Data Engineers
Ну и немного интереснее работать с людьми которые много всего делали разного, чем с теми кто очередной сетап заказал у вендора и отрицает прогресс
источник

ЕГ

Евгений Глотов in Data Engineers
Dmitry Zuev
Но в этом отличие инженера от неинженера.
Ты садишься и пишешь начем надо. Максимум ворчишь в процессе
Конкретно для нас важно обеспечить возможность одновременной интерактивной работы с хранилищем на кластере более ста человек, а также как минимум частичное переиспользование результатов этой самой интерактивной работы)
источник

K

KrivdaTheTriewe in Data Engineers
Dmitry Zuev
Hive, Scala, не мудак.  Выбрать можно только одно
Можно выбрать Impala ?
источник