Телеграмм чат группы hadoopusers страница 1744

09:22пожаловаться #1

MB

Всем привет.

10:46пожаловаться #2

MB

Странная ситуёвина с таблицей HBASE.
Количество сплитованных регионов растёт и не уменьшается. Пробовал major_compact - эфекта не дало :(

Пробовал пре-сплит. Регионов стало только больше.
Куда смотреть?

10:48пожаловаться #3

AS

Andrey Smirnov in Data Engineers

Странная ситуёвина с таблицей HBASE.
Количество сплитованных регионов растёт и не уменьшается. Пробовал major_compact - эфекта не дало :(

Пробовал пре-сплит. Регионов стало только больше.
Куда смотреть?

руками merge не пробывал делать?

10:51пожаловаться #4

AZ

Странная ситуёвина с таблицей HBASE.
Количество сплитованных регионов растёт и не уменьшается. Пробовал major_compact - эфекта не дало :(

Пробовал пре-сплит. Регионов стало только больше.
Куда смотреть?

1) посмотреть почему сплитится, скорее всего ключей очень много 2) потыкать ручки сплита/мерджа, в шелле splitormerge_enabled 'SPLIT' - это статус автосплита, splitormerge_enabled 'MERGE' - статус автомерджа

Паша Финкельштейн in Data Engineers

10:58пожаловаться #5

ПФ

Инжинеры, а что, нельзя сказать хайву что у меня CSV пожатые если при этом у файлов не проставлен экстеншн gz?

10:59пожаловаться #6

MB

Andrey Smirnov

руками merge не пробывал делать?

неа, чёт очкую... нам итак размер регионов нормальные, а если их мерджить, то они увеличиваться в размере будут. Кроме того надо понимать какие смерджить

11:06пожаловаться #7

MB

Anton Zadorozhniy

1) посмотреть почему сплитится, скорее всего ключей очень много 2) потыкать ручки сплита/мерджа, в шелле splitormerge_enabled 'SPLIT' - это статус автосплита, splitormerge_enabled 'MERGE' - статус автомерджа

оба true

11:09пожаловаться #8

AZ

оба true

ну тогда вам надо еще раз внимательно посмотреть на дизайн rowkey и на то что хранится в таблице, и если вы уверены в размерах тех регионов которые есть - выключить автосплит, но надо принять риск что если вы просчитались - будут очень тяжелые регионы которые будут тормозить конкретные регион-сервера

11:16пожаловаться #9

AZ

самые нагруженные хбейсы с которыми я работал имели фиксированные регионы с пресплитом и без автосплита

11:16пожаловаться #10

AZ

(но это неудобно конечно, большой оверхед на ДБА)

11:16пожаловаться #11

AS

Andrey Smirnov in Data Engineers

неа, чёт очкую... нам итак размер регионов нормальные, а если их мерджить, то они увеличиваться в размере будут. Кроме того надо понимать какие смерджить

если размер нормальный, то чего ты переживаешь?
можно мержить указав два region key, проверишь что все норм

11:30пожаловаться #12

DV

Daniil Vorobeyv in Data Engineers

Всем привет!
Не могли бы подсказать, какой метод в Spark DataSet позволяет вычислить пользователькую функцию f для каждой строки, причем результатом исполнения метода будет столбец, где в i строке будет значение f на i строке исходного DataSet?
P.S. язык Scala

11:32пожаловаться #13

DV

Daniil Vorobeyv in Data Engineers

DataSet:
|col1|col2|
|12|1001|
f(row) =row(0)+row(1)
f(нулевая строка) = 12 +1001=13
Вот есть, что-то такое?

11:35пожаловаться #14

AZ

Daniil Vorobeyv

Всем привет!
Не могли бы подсказать, какой метод в Spark DataSet позволяет вычислить пользователькую функцию f для каждой строки, причем результатом исполнения метода будет столбец, где в i строке будет значение f на i строке исходного DataSet?
P.S. язык Scala

в датасетах нет столбцов и строк, это коллекции объектов заданного класса

11:37пожаловаться #15

AS

Daniil Vorobeyv

DataSet:
|col1|col2|
|12|1001|
f(row) =row(0)+row(1)
f(нулевая строка) = 12 +1001=13
Вот есть, что-то такое?

не совсем понял задачу. у вас должно быть что то типа df = df.withColumn("res", f.col('col1')+f.col('col2'))

11:44пожаловаться #16

AS

для получения номера строки df.withColumn('fakeOrder', f.lit(1)).withColumn("row_number", f.row_number().over(Window.orderBy("fakeOrder"))) и возможно вам надо еще кумулятивную сумму сделать

11:47пожаловаться #17

AS

df.withColumn("cumsum", f.sum(f.col("Value")).over(Window.orderBy("fakeOrder")))

11:48пожаловаться #18

AS

Daniil Vorobeyv

Всем привет!
Не могли бы подсказать, какой метод в Spark DataSet позволяет вычислить пользователькую функцию f для каждой строки, причем результатом исполнения метода будет столбец, где в i строке будет значение f на i строке исходного DataSet?
P.S. язык Scala

простите плохо прочитал задачу. я думал что вам надо DataFrame

11:49пожаловаться #19

DV

Daniil Vorobeyv in Data Engineers

Т.е. если я делаю dataset.select(name), то name - это не колонка , а некоторая другая "сущность"?