Size: a a a

2021 July 21

DP

Dmitriy Pavlov in Data Engineers
Напомнило:
источник

DP

Dmitriy Pavlov in Data Engineers
источник

N

Nikita Blagodarnyy in Data Engineers
потом выясняется, что написанный иероглиф еще значит «вторник», «седло», «кнопка», «восемь», «громко жевать», «детородный орган змеи»
источник

О奧

Олег 奧列格 (Ào liè gé)... in Data Engineers
Это точно )))) особенно контекст важен )
источник

TM

Toemik Mnemonic in Data Engineers
кто нибудь сношался в python SDK azureml с таким объектом как Dataset.Tabular ?  документация у майкоф на его счет отсутствует. Собственно проблема в том что вместо милых всем нормальным людям пандосовских датафреймов azureml использует Dataset.TabularDataset, который создается вышеупомянутым Dataset.Tabular  из файлов с разделителями. Проблема в том что TabularDataset не имеет методов и полей которые бы могли бы кастить из float в int..
источник

TM

Toemik Mnemonic in Data Engineers
а int он считывает как десятичный, что совершенно не устраивает, так как это метка класса. И никаких тебе кастовых методов или .astype()..
источник
2021 July 22

🤔😊

🤔 😊 in Data Engineers
А to_pandas_dataframe() не кастует?
источник

TM

Toemik Mnemonic in Data Engineers
а SDK дальше по пайплайну, несмотря на издевательское указание что работает с различными объектами в том числе  и pd.DataFrame в реальности работает только с TabularDataset. Вроде я нашел метод у фабрики создающей TabularDataset. Документация ужасающе противоречивая, на удивление хреново они ее поддерживают)
источник

TM

Toemik Mnemonic in Data Engineers
Хз, может кому то пригодится #azureml, решил так (нужен azureml.data.DataType) :
Dataset.Tabular.from_delimited_files(path = '',  set_column_types={'FeatureColumn':DataType.to_string(),'Mark':DataType.to_long()}
источник

DD

D D in Data Engineers
Подскажите, пожалуйста, суррогатные ключи(искусственные уникальные идентификаторы ID)в Spark SQL  лучше генерировать с помощью функций генерации UUID ? В Spark SQL может есть ещё аналоги Sequences из мира классических RDBMS ?
источник

ИК

Иван Калининский... in Data Engineers
источник

A

Anton Kovalenko in Data Engineers
Если кому интересно
https://habr.com/ru/company/arenadata/blog/566182/
источник

AZ

Anton Zadorozhniy in Data Engineers
отличная работа! datasourcev2 очень кудрявый и местами плохо документированный API
источник

AZ

Anton Zadorozhniy in Data Engineers
даже SupportReportStatistics реализовали?
источник

A

AE in Data Engineers
источник

A

AE in Data Engineers
Он условно закрытый?
источник

A

Anton Kovalenko in Data Engineers
Да, для коммерческих заказчиков.
источник

R

Roman in Data Engineers
всем привет, есть кто то, кто на реальных проектах имел дело с apache thrift и с gRPC и может рассказать свое мнение о том что лучше и какие там есть существенные различия между ними в скорости передачи данных, например?
источник

ЕГ

Евгений Глотов... in Data Engineers
Ну такой уже есть(
источник

ЕГ

Евгений Глотов... in Data Engineers
Хотя где-то в архивах инэта был и код открытого, который самим надо собирать)
источник