Size: a a a

2020 August 02

Р

Роман in Data Engineers
Всем привет! Ктонибудь может обьяснить почему оконная функция max(..) over (partition by .. order by ..) зависит от order by..?
источник

AZ

Anton Zadorozhniy in Data Engineers
Роман
Всем привет! Ктонибудь может обьяснить почему оконная функция max(..) over (partition by .. order by ..) зависит от order by..?
я не помню деталей стандарта, но вроде там по-умолчанию вставляется range between unbounded preceding and current row, так что то как вы сортируете определяет последовательность для накопительного итога
источник

AZ

Anton Zadorozhniy in Data Engineers
зависит от того какая СУБД вообще
источник

Р

Роман in Data Engineers
Вот пробую уже на двух. Order by null, order by столбец asc и desc) lдают разные результаты
источник

Р

Роман in Data Engineers
Попробовал в hive и postgres
источник

AZ

Anton Zadorozhniy in Data Engineers
ну да, это корректно, когда вы добавляете order by то функция считается накопительным итогом
источник

DZ

Dmitry Zuev in Data Engineers
Anton Zadorozhniy
я не помню деталей стандарта, но вроде там по-умолчанию вставляется range between unbounded preceding and current row, так что то как вы сортируете определяет последовательность для накопительного итога
Эм, но там макс
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitry Zuev
Эм, но там макс
максимум также можно считать накопительным итогом
источник

DZ

Dmitry Zuev in Data Engineers
Аа блин, всё
источник

Р

Роман in Data Engineers
Спасибо!
источник

AZ

Anton Zadorozhniy in Data Engineers
если вам нужно одинаковое значение для каждой строки в партиции - уберите order by clause
источник
2020 August 03

АК

Анатолий Клюса... in Data Engineers
Подскажите, в импале так и не сделали xpath, как в hive, чтобы можно было парсить xml в столбце (внеш. таблица с паркетами)?
Hive меня в общем и целом вполне устраивает для этих целей, просто импала, конечно, пошустрее будет )
источник

AS

Andrey Smirnov in Data Engineers
Андрей Купин
А как в спарке решаются подобные задачи?
посмотрел как другие делают, оптимально через rdd со своим партишионером, это как раз тот редкий случай, когда стоит помучиться с rdd по сравнению с dataframe|dataset
источник

N

Nikolay in Data Engineers
Andrey Smirnov
посмотрел как другие делают, оптимально через rdd со своим партишионером, это как раз тот редкий случай, когда стоит помучиться с rdd по сравнению с dataframe|dataset
Скиньте ссылочку в группу. Интересно посмотреть , как это делают
источник

AS

Andrey Smirnov in Data Engineers
Nikolay
Скиньте ссылочку в группу. Интересно посмотреть , как это делают
источник

АК

Андрей Купин... in Data Engineers
Andrey Smirnov
посмотрел как другие делают, оптимально через rdd со своим партишионером, это как раз тот редкий случай, когда стоит помучиться с rdd по сравнению с dataframe|dataset
Плюс через rdd в том, что перформанс выше?
источник

AS

Andrey Smirnov in Data Engineers
Андрей Купин
Плюс через rdd в том, что перформанс выше?
в том, что ты можешь управлять где и как будут расположены партиции, и  с помощью этого добиться большей скорости. Например использовать свой партишионер для join (в случае dataframe у тебя будет решафл).
источник

АК

Андрей Купин... in Data Engineers
Andrey Smirnov
в том, что ты можешь управлять где и как будут расположены партиции, и  с помощью этого добиться большей скорости. Например использовать свой партишионер для join (в случае dataframe у тебя будет решафл).
Спасибо! Обычно тоже через бакеты джойнил
источник

А

Алексей in Data Engineers
В databricks есть range join через хинт https://docs.databricks.com/delta/join-performance/range-join.html
источник

AS

Andrey Smirnov in Data Engineers
Алексей
В databricks есть range join через хинт https://docs.databricks.com/delta/join-performance/range-join.html
и похоже сделан через bin
источник