Телеграмм чат группы hadoopusers страница 2600

2020 August 02

Р

Всем привет! Ктонибудь может обьяснить почему оконная функция max(..) over (partition by .. order by ..) зависит от order by..?

источник

16:03пожаловаться #1

AZ

Anton Zadorozhniy in Data Engineers

Роман

Всем привет! Ктонибудь может обьяснить почему оконная функция max(..) over (partition by .. order by ..) зависит от order by..?

я не помню деталей стандарта, но вроде там по-умолчанию вставляется range between unbounded preceding and current row, так что то как вы сортируете определяет последовательность для накопительного итога

источник

16:12пожаловаться #2

AZ

Anton Zadorozhniy in Data Engineers

зависит от того какая СУБД вообще

источник

16:12пожаловаться #3

Р

Роман in Data Engineers

Вот пробую уже на двух. Order by null, order by столбец asc и desc) lдают разные результаты

источник

16:14пожаловаться #4

Р

Роман in Data Engineers

Попробовал в hive и postgres

источник

16:15пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

ну да, это корректно, когда вы добавляете order by то функция считается накопительным итогом

источник

16:15пожаловаться #6

DZ

Dmitry Zuev in Data Engineers

Anton Zadorozhniy

я не помню деталей стандарта, но вроде там по-умолчанию вставляется range between unbounded preceding and current row, так что то как вы сортируете определяет последовательность для накопительного итога

Эм, но там макс

источник

16:16пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

Dmitry Zuev

Эм, но там макс

максимум также можно считать накопительным итогом

источник

16:16пожаловаться #8

DZ

Dmitry Zuev in Data Engineers

Аа блин, всё

источник

16:18пожаловаться #9

Р

Роман in Data Engineers

Спасибо!

источник

16:19пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

если вам нужно одинаковое значение для каждой строки в партиции - уберите order by clause

источник

16:24пожаловаться #11

2020 August 03

АК

Анатолий Клюса... in Data Engineers

Подскажите, в импале так и не сделали xpath, как в hive, чтобы можно было парсить xml в столбце (внеш. таблица с паркетами)?
Hive меня в общем и целом вполне устраивает для этих целей, просто импала, конечно, пошустрее будет )

источник

11:08пожаловаться #12

AS

Andrey Smirnov in Data Engineers

Андрей Купин

А как в спарке решаются подобные задачи?

посмотрел как другие делают, оптимально через rdd со своим партишионером, это как раз тот редкий случай, когда стоит помучиться с rdd по сравнению с dataframe|dataset

источник

11:30пожаловаться #13

N

Nikolay in Data Engineers

Andrey Smirnov

посмотрел как другие делают, оптимально через rdd со своим партишионером, это как раз тот редкий случай, когда стоит помучиться с rdd по сравнению с dataframe|dataset

Скиньте ссылочку в группу. Интересно посмотреть , как это делают

источник

11:46пожаловаться #14

AS

Andrey Smirnov in Data Engineers

Nikolay

Скиньте ссылочку в группу. Интересно посмотреть , как это делают

https://rahulpedduri.github.io/2017/10/23/time-range-join.html

What I’ve learnt

Time range join in spark

A blog about experiences from a geek.

источник

11:47пожаловаться #15

АК

Андрей Купин... in Data Engineers

Andrey Smirnov

посмотрел как другие делают, оптимально через rdd со своим партишионером, это как раз тот редкий случай, когда стоит помучиться с rdd по сравнению с dataframe|dataset

Плюс через rdd в том, что перформанс выше?

источник

11:54пожаловаться #16

AS

Andrey Smirnov in Data Engineers

Андрей Купин

Плюс через rdd в том, что перформанс выше?

в том, что ты можешь управлять где и как будут расположены партиции, и с помощью этого добиться большей скорости. Например использовать свой партишионер для join (в случае dataframe у тебя будет решафл).

источник

11:57пожаловаться #17

АК

Андрей Купин... in Data Engineers

Andrey Smirnov

в том, что ты можешь управлять где и как будут расположены партиции, и с помощью этого добиться большей скорости. Например использовать свой партишионер для join (в случае dataframe у тебя будет решафл).

Спасибо! Обычно тоже через бакеты джойнил

источник

11:59пожаловаться #18

А

Алексей in Data Engineers

В databricks есть range join через хинт https://docs.databricks.com/delta/join-performance/range-join.html

источник

13:01пожаловаться #19

AS

Andrey Smirnov in Data Engineers

Алексей

В databricks есть range join через хинт https://docs.databricks.com/delta/join-performance/range-join.html

и похоже сделан через bin

источник

13:04пожаловаться #20