Телеграмм чат группы hadoopusers страница 3920

кто нибудь сношался в python SDK azureml с таким объектом как Dataset.Tabular ? документация у майкоф на его счет отсутствует. Собственно проблема в том что вместо милых всем нормальным людям пандосовских датафреймов azureml использует Dataset.TabularDataset, который создается вышеупомянутым Dataset.Tabular из файлов с разделителями. Проблема в том что TabularDataset не имеет методов и полей которые бы могли бы кастить из float в int..

источник

20:29пожаловаться #5

Toemik Mnemonic in Data Engineers

а int он считывает как десятичный, что совершенно не устраивает, так как это метка класса. И никаких тебе кастовых методов или .astype()..

источник

20:30пожаловаться #6

2021 July 22

🤔😊

🤔 😊 in Data Engineers

А to_pandas_dataframe() не кастует?

источник

10:16пожаловаться #7

Toemik Mnemonic in Data Engineers

а SDK дальше по пайплайну, несмотря на издевательское указание что работает с различными объектами в том числе и pd.DataFrame в реальности работает только с TabularDataset. Вроде я нашел метод у фабрики создающей TabularDataset. Документация ужасающе противоречивая, на удивление хреново они ее поддерживают)

источник

10:29пожаловаться #8

Toemik Mnemonic in Data Engineers

Хз, может кому то пригодится #azureml, решил так (нужен azureml.data.DataType) :

Dataset.Tabular.from_delimited_files(path = '',  set_column_types={'FeatureColumn':DataType.to_string(),'Mark':DataType.to_long()}

источник

10:37пожаловаться #9

D D in Data Engineers

Подскажите, пожалуйста, суррогатные ключи(искусственные уникальные идентификаторы ID)в Spark SQL лучше генерировать с помощью функций генерации UUID ? В Spark SQL может есть ещё аналоги Sequences из мира классических RDBMS ?

источник

12:19пожаловаться #10

ИК

Иван Калининский... in Data Engineers

https://t.me/hadoopusers/87364

Nik B in Data Engineers

У бриксов был вебинар на этот счет https://www.youtube.com/watch?v=aF2hRH5WZAU&t=1782s

источник

12:35пожаловаться #11

Anton Kovalenko in Data Engineers

Если кому интересно
https://habr.com/ru/company/arenadata/blog/566182/

Хабр

Как и зачем мы сделали Spark-коннектор к Greenplum

Всем привет! Меня зовут Андрей, я работаю системным архитектором в Arenadata. В этой статье расскажу, как и зачем мы сделали свой инструмент для обмена данными между Arenadata DB (аналитическая...

источник

14:12пожаловаться #12

Anton Zadorozhniy in Data Engineers

отличная работа! datasourcev2 очень кудрявый и местами плохо документированный API

источник

14:26пожаловаться #13

Anton Zadorozhniy in Data Engineers

даже SupportReportStatistics реализовали?

источник

14:26пожаловаться #14

AE in Data Engineers

источник

14:34пожаловаться #15

AE in Data Engineers

Он условно закрытый?

источник

14:34пожаловаться #16

Anton Kovalenko in Data Engineers

Да, для коммерческих заказчиков.

источник

14:37пожаловаться #17

Roman in Data Engineers

всем привет, есть кто то, кто на реальных проектах имел дело с apache thrift и с gRPC и может рассказать свое мнение о том что лучше и какие там есть существенные различия между ними в скорости передачи данных, например?

источник

16:54пожаловаться #18

ЕГ

Евгений Глотов... in Data Engineers

Ну такой уже есть(

источник

16:58пожаловаться #19

ЕГ

Евгений Глотов... in Data Engineers

Хотя где-то в архивах инэта был и код открытого, который самим надо собирать)

источник

16:59пожаловаться #20