Телеграмм чат группы hadoopusers страница 1769

Там надо сделать отдельную колонку с 1 или 0. 1- начало новой сессии. Потом на базе неё сделаиь сумму. Тогда у сессии будет одна цифирка. А дальше можно груп бай по этой сумме и в ней сумму дифов

источник

13:23пожаловаться #10

OP

O. Petr in Data Engineers

И как на базе этого сессию/сумму выделить
--------------------------------
-|ts|id|diff_prev_ts|status
--------------------------------
1|..|1..| 10 sec |0
2|..|1..| 20 sec |0
3|..|1..| 10 sec |0
4|..|1..| 20 sec |1
5|..|1..| 180 sec |0
6|..|1..| 10 sec |0
--------------------------------

источник

13:25пожаловаться #11

Y

Yestay in Data Engineers

O. Petr

кастомными udwf ?

не обязательно, можно все прописать в параметрах withColumn

источник

13:25пожаловаться #12

OP

O. Petr in Data Engineers

Теп с кастомной udf можно к такому привести, а засчет еще одной оконной и фильтра оставить только те где след строка с 0 ?
--------------------------------
-|ts|id|diff_prev_ts|sum_prevs_ts
--------------------------------
1|..|1..| 10 sec |10
2|..|1..| 20 sec |30
3|..|1..| 10 sec |40
4|..|1..| 20 sec |50
5|..|1..| 180 sec |0
6|..|1..| 10 sec |10
--------------------------------

источник

13:28пожаловаться #13

Y

Yestay in Data Engineers

O. Petr

Теп с кастомной udf можно к такому привести, а засчет еще одной оконной и фильтра оставить только те где след строка с 0 ?
--------------------------------
-|ts|id|diff_prev_ts|sum_prevs_ts
--------------------------------
1|..|1..| 10 sec |10
2|..|1..| 20 sec |30
3|..|1..| 10 sec |40
4|..|1..| 20 sec |50
5|..|1..| 180 sec |0
6|..|1..| 10 sec |10
--------------------------------

я щас проверить не могу, но что то типа такого попробуй

.withColumn('Session Number',
F.sum(
F.when(
sum_prevs_ts==0,
F.lit(1))
.otherwise(F.lit(0)))
.groupBy('Session Number')

источник

13:41пожаловаться #14

Ik

Ilia ksen in Data Engineers

Привет

источник

13:55пожаловаться #15

Ik

Ilia ksen in Data Engineers

Такая проблема при создании датафрейма, создаю id с помощью UUID.randomUUID.toString . Но при дальнейшей работе с этим датафреймом, например селект, джоин и т д, спарк несколько раз вызывает этот метод

источник

13:57пожаловаться #16

Ik

Ilia ksen in Data Engineers

И получается так, что при работе с одним дата фреймом, при селекте делается другой id

источник

13:58пожаловаться #17

Ik

Ilia ksen in Data Engineers

Хотя переменная val

источник

13:58пожаловаться #18