Всем привет! Ктонибудь может обьяснить почему оконная функция max(..) over (partition by .. order by ..) зависит от order by..?
я не помню деталей стандарта, но вроде там по-умолчанию вставляется range between unbounded preceding and current row, так что то как вы сортируете определяет последовательность для накопительного итога
я не помню деталей стандарта, но вроде там по-умолчанию вставляется range between unbounded preceding and current row, так что то как вы сортируете определяет последовательность для накопительного итога
Подскажите, в импале так и не сделали xpath, как в hive, чтобы можно было парсить xml в столбце (внеш. таблица с паркетами)? Hive меня в общем и целом вполне устраивает для этих целей, просто импала, конечно, пошустрее будет )
посмотрел как другие делают, оптимально через rdd со своим партишионером, это как раз тот редкий случай, когда стоит помучиться с rdd по сравнению с dataframe|dataset
посмотрел как другие делают, оптимально через rdd со своим партишионером, это как раз тот редкий случай, когда стоит помучиться с rdd по сравнению с dataframe|dataset
Скиньте ссылочку в группу. Интересно посмотреть , как это делают
посмотрел как другие делают, оптимально через rdd со своим партишионером, это как раз тот редкий случай, когда стоит помучиться с rdd по сравнению с dataframe|dataset
в том, что ты можешь управлять где и как будут расположены партиции, и с помощью этого добиться большей скорости. Например использовать свой партишионер для join (в случае dataframe у тебя будет решафл).
в том, что ты можешь управлять где и как будут расположены партиции, и с помощью этого добиться большей скорости. Например использовать свой партишионер для join (в случае dataframe у тебя будет решафл).