Size: a a a

2021 July 12

ММ

Максим Митяев... in Data Engineers
А почему?
источник

AZ

Anton Zadorozhniy in Data Engineers
Золотые слова
источник

АЖ

Андрей Жуков... in Data Engineers
Почему ту пандас не надо? Потому что это сводит на нет всю идею распределенных вычислений
источник

AZ

Anton Zadorozhniy in Data Engineers
Датафреймы как концепция уже довольно общее место (pyspark, koalas, verticapy, teradataml), начать обучение можно с панд, но тащить в панды с распределённых платформ не надо
источник

AZ

Anton Zadorozhniy in Data Engineers
Было бы ещё круто чтобы интерфейс у всех этих ДФ был един, как dplyr, но это питон, you can’t have nice things
источник

АЖ

Андрей Жуков... in Data Engineers
источник

AS

Andrey Smirnov in Data Engineers
В R точно есть как минимум две библиотеки с концепцией data frame, нигде нет единообразия
источник

AZ

Anton Zadorozhniy in Data Engineers
Я не говорил про однообразие, пусть будет dplyr и data.table в питоне, мой намёк был на dplyr с его разными бэкендами
источник

AG

Arsen Gumin in Data Engineers
Я вас понял, если я знаю хорошо пандас, то держа в голове концепцию спарка и нюансы параллельности, я смогу легко адаптироваться? Например, как держа в голове, что hive/impala не классический sql, где-то нужен другой подход, но синтаксис будет похож (Плюс/минус, меня кончено поправят😀)
источник

NN

No Name in Data Engineers
Нет
источник

N

Nikita Blagodarnyy in Data Engineers
Вам нужно как минимум узнать, какие методы апи могут выполняться распределенно, а какие будут вытягивать всё на драйвер и обсчитываться на нём и использовать последние осознанно и с осторожностью.
источник

AG

Arsen Gumin in Data Engineers
Понял, видимо лучше не ломать пальцы и пойти пройти обучение
источник

N

Nikita Blagodarnyy in Data Engineers
А так, что одно, что второе-способ реализации реляционной логики асбстракциями языка высокого уровня.
источник

N

Nikita Blagodarnyy in Data Engineers
Это ещё никому не навредило.
источник

ЕГ

Евгений Глотов... in Data Engineers
А как делать импорт иксджибуст🤔
источник

ЕГ

Евгений Глотов... in Data Engineers
Без тупандаса)
источник

h

helby in Data Engineers
Удивлен, увидеть упоминание R в чате по data engineerng'у
источник

AG

Arsen Gumin in Data Engineers
Спасибо
источник

ЕГ

Евгений Глотов... in Data Engineers
Спарк на R всё ещё существует)
источник

ME

Mikhail Epikhin in Data Engineers
Вы пользуетесь?
источник