Телеграмм чат группы hadoopusers страница 3880

Датафреймы как концепция уже довольно общее место (pyspark, koalas, verticapy, teradataml), начать обучение можно с панд, но тащить в панды с распределённых платформ не надо

источник

21:00пожаловаться #4

Anton Zadorozhniy in Data Engineers

Было бы ещё круто чтобы интерфейс у всех этих ДФ был един, как dplyr, но это питон, you can’t have nice things

источник

21:03пожаловаться #5

АЖ

Андрей Жуков... in Data Engineers

Andrey Smirnov in Data Engineers

В R точно есть как минимум две библиотеки с концепцией data frame, нигде нет единообразия

источник

21:14пожаловаться #7

Anton Zadorozhniy in Data Engineers

Я не говорил про однообразие, пусть будет dplyr и data.table в питоне, мой намёк был на dplyr с его разными бэкендами

источник

21:18пожаловаться #8

Arsen Gumin in Data Engineers

Я вас понял, если я знаю хорошо пандас, то держа в голове концепцию спарка и нюансы параллельности, я смогу легко адаптироваться? Например, как держа в голове, что hive/impala не классический sql, где-то нужен другой подход, но синтаксис будет похож (Плюс/минус, меня кончено поправят😀)

источник

21:35пожаловаться #9

No Name in Data Engineers

Нет

источник

21:46пожаловаться #10

Nikita Blagodarnyy in Data Engineers

Вам нужно как минимум узнать, какие методы апи могут выполняться распределенно, а какие будут вытягивать всё на драйвер и обсчитываться на нём и использовать последние осознанно и с осторожностью.

источник

21:47пожаловаться #11

Arsen Gumin in Data Engineers

Понял, видимо лучше не ломать пальцы и пойти пройти обучение

источник

21:50пожаловаться #12

Nikita Blagodarnyy in Data Engineers

А так, что одно, что второе-способ реализации реляционной логики асбстракциями языка высокого уровня.

источник

21:52пожаловаться #13

Nikita Blagodarnyy in Data Engineers

Это ещё никому не навредило.