Size: a a a

2019 November 06

DV

Daniil Vorobeyv in Data Engineers
в датасетах нет столбцов и строк, это коллекции объектов заданного класса
источник

AS

Anton Shelin in Data Engineers
Daniil Vorobeyv
в датасетах нет столбцов и строк, это коллекции объектов заданного класса
Можно сконвертировать датасет в датафрейм
источник

AS

Anton Shelin in Data Engineers
В колонку типа structtype и если надо сделать flattening
источник

DV

Daniil Vorobeyv in Data Engineers
Вот да, нужен метод позволяющий выполнять операции сложения и умножения на число над столбцами DataSet ( т.е. DataFrame ). Прямо как для линейного пространтсва.
alpha × col1 + beta × col2 , где col1, col2 - это колонки DataFrame
источник

DV

Daniil Vorobeyv in Data Engineers
не совсем понял задачу. у вас должно быть что то типа df = df.withColumn("res", f.col('col1')+f.col('col2'))
источник

AZ

Anton Zadorozhniy in Data Engineers
Daniil Vorobeyv
Вот да, нужен метод позволяющий выполнять операции сложения и умножения на число над столбцами DataSet ( т.е. DataFrame ). Прямо как для линейного пространтсва.
alpha × col1 + beta × col2 , где col1, col2 - это колонки DataFrame
У вас Dataset[SomeClass], вам нужно сделать функцию SomeClass -> SomeOtherClass, применить ее через map и на выходе будет Dataset[SomeOtherClass]
источник

DV

Daniil Vorobeyv in Data Engineers
@dartov @anton_shelin Попробую, спасибо за информацию!
источник

AS

Anton Shelin in Data Engineers
Daniil Vorobeyv
Вот да, нужен метод позволяющий выполнять операции сложения и умножения на число над столбцами DataSet ( т.е. DataFrame ). Прямо как для линейного пространтсва.
alpha × col1 + beta × col2 , где col1, col2 - это колонки DataFrame
если через датафреймы то так можно vec = [1,2,3]
muls = [f.col(df.columns[i]) * vec[i] for i in range(0,len(df.columns))]
df = df.withColumn('res', reduce((lambda x, y: x + y),muls))
источник

AS

Anton Shelin in Data Engineers
Anton Shelin
если через датафреймы то так можно vec = [1,2,3]
muls = [f.col(df.columns[i]) * vec[i] for i in range(0,len(df.columns))]
df = df.withColumn('res', reduce((lambda x, y: x + y),muls))
к сожалению 100 лет не писал на скале. поэтому примеры на питоне. но идею понять можно
источник

MB

Mikhail Butalin in Data Engineers
Подскажите, можно к hbase:meta обращаться как к таблице и вычитывать оттуда значения по условию/фильтру?
И есть ли java пример на эту тему? :)
источник

AZ

Anton Zadorozhniy in Data Engineers
Mikhail Butalin
Подскажите, можно к hbase:meta обращаться как к таблице и вычитывать оттуда значения по условию/фильтру?
И есть ли java пример на эту тему? :)
Нет, у HBase есть только get по значению ключа и scan по интервалу, примеры в HBase book
источник

DM

Daniel Matveev in Data Engineers
Anton Zadorozhniy
Нет, у HBase есть только get по значению ключа и scan по интервалу, примеры в HBase book
Фильтр есть ж
источник

VS

Valeriy Shinkevich in Data Engineers
org.apache.hadoop.hbase
Class MetaTableAccessor
источник

AZ

Anton Zadorozhniy in Data Engineers
Daniel Matveev
Фильтр есть ж
это ограничение того что посылается на клиента, данные с диска все равно читаются независимо от фильтра (такой примитивный копроцессор)
источник

DM

Daniel Matveev in Data Engineers
Anton Zadorozhniy
это ограничение того что посылается на клиента, данные с диска все равно читаются независимо от фильтра (такой примитивный копроцессор)
я так понял вопрос был про апи
источник

DM

Daniel Matveev in Data Engineers
хотя вру, я не понял всей глубины вопроса и сматчил по названию
источник

OI

Oleg Ilinsky in Data Engineers
Привет!
У меня спарк стрим читает из hdfs и пишет в табличку hive. И вот сейчас начал падать с ошибкой:
19/11/06 18:24:20 WARN RetryingMetaStoreClient: MetaStoreClient lost connection. Attempting to reconnect.
org.apache.thrift.TApplicationException: Required field 'filesAdded' is unset! Struct:InsertEventRequestData(filesAdded:null)

Причём только на одной из таблиц. На остальных всё ок. Нагуглил только баги спарка/хайва, которые уже resolved...
источник

OI

Oleg Ilinsky in Data Engineers
Мб кто сталкивался с таким?
источник

OI

Oleg Ilinsky in Data Engineers
Ещё в логе нашел вот такую ошибку, хз связана ли она с остальным  
ERROR KeyProviderCache: Could not find uri with key [dfs.encryption.key.provider.uri] to create a keyProvider !!
источник

OI

Oleg Ilinsky in Data Engineers
Oleg Ilinsky
Привет!
У меня спарк стрим читает из hdfs и пишет в табличку hive. И вот сейчас начал падать с ошибкой:
19/11/06 18:24:20 WARN RetryingMetaStoreClient: MetaStoreClient lost connection. Attempting to reconnect.
org.apache.thrift.TApplicationException: Required field 'filesAdded' is unset! Struct:InsertEventRequestData(filesAdded:null)

Причём только на одной из таблиц. На остальных всё ок. Нагуглил только баги спарка/хайва, которые уже resolved...
Вот это, как я понял, может быть связано со структурой таблицы и если сложный запрос в мету, то он отваливается. Но там не так уже много полей - штук 70 всего. hive.stats.autogather выключил
источник