Телеграмм чат группы hadoopusers страница 3418

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2359 membersпожаловаться на группу

2021 March 22

AZ

Anton Zadorozhniy in Data Engineers

Странно, что почти нигде нет такой штуки как LIMIT n,m BY key1, key2 тк она кажется достаточно естественной

у нас есть SAMPLE который может вообще что угодно
SELECT city, state, SAMPLEID
FROM stores
SAMPLE WHEN state = 'WI' THEN 0.25
WHEN state = 'CA' THEN 0.5
END
ORDER BY 3;

источник

20:50пожаловаться #1

А

Алексей in Data Engineers

Странно, что почти нигде нет такой штуки как LIMIT n,m BY key1, key2 тк она кажется достаточно естественной

Лимита в некоторых бд нет, или он под капотом решается через row_number

источник

20:51пожаловаться #2

VP

Vitaly Pismarev in Data Engineers

Лимита в некоторых бд нет, или он под капотом решается через row_number

помоему, такая порнуха только в oracle

источник

20:52пожаловаться #3

А

Алексей in Data Engineers

Vitaly Pismarev

помоему, такая порнуха только в oracle

Да)

источник

20:53пожаловаться #4

DT

Dmitry Titov in Data Engineers

Anton Zadorozhniy

у нас есть SAMPLE который может вообще что угодно
SELECT city, state, SAMPLEID
FROM stores
SAMPLE WHEN state = 'WI' THEN 0.25
WHEN state = 'CA' THEN 0.5
END
ORDER BY 3;

Ох, нужно вникать.
Оно позволяет взять каждую третью строчку, но только после сортировки ORDER BY?
С первого взгляда кажется, что оно будет считаться до ORDER BY?

источник

20:55пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

Ох, нужно вникать.
Оно позволяет взять каждую третью строчку, но только после сортировки ORDER BY?
С первого взгляда кажется, что оно будет считаться до ORDER BY?

Это все до order by, именно для сэмплирования (например в ML)

источник

20:58пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

для ограничений по упорядоченной выборке у нас есть сахарок под название QUALIFY, но туда просто любую стандартную оконку пишут
SELECT itemid, sumprice
FROM (SELECT a1.item_id, SUM(a1.sale)
FROM sales AS a1
GROUP BY a1.itemID) AS t1 (item_id, sumprice)
QUALIFY RANK() OVER (ORDER BY sum_price DESC) <=100;

источник

21:06пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

(это как HAVING, только для оконок, позволяет лишний раз не заворачивать в подзапрос)

источник

21:06пожаловаться #8

DT

Dmitry Titov in Data Engineers

Anton Zadorozhniy

для ограничений по упорядоченной выборке у нас есть сахарок под название QUALIFY, но туда просто любую стандартную оконку пишут
SELECT itemid, sumprice
FROM (SELECT a1.item_id, SUM(a1.sale)
FROM sales AS a1
GROUP BY a1.itemID) AS t1 (item_id, sumprice)
QUALIFY RANK() OVER (ORDER BY sum_price DESC) <=100;

А, понятно.

Ну SAMPLE все равно выглядит интересным.

источник

21:08пожаловаться #9

AZ

Anton Zadorozhniy in Data Engineers

А, понятно.

Ну SAMPLE все равно выглядит интересным.

о да, он могуч

источник

21:09пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

в добавок ко всему этому он сэмплам дает номера, служебное слово SAMPLEID

источник

21:10пожаловаться #11

NN

No Name in Data Engineers

Anton Zadorozhniy

для ограничений по упорядоченной выборке у нас есть сахарок под название QUALIFY, но туда просто любую стандартную оконку пишут
SELECT itemid, sumprice
FROM (SELECT a1.item_id, SUM(a1.sale)
FROM sales AS a1
GROUP BY a1.itemID) AS t1 (item_id, sumprice)
QUALIFY RANK() OVER (ORDER BY sum_price DESC) <=100;

Вот после ТД в других СУБД мне именно квалифая недоставало особенно сильно, по крайней мере первое время

источник

21:11пожаловаться #12

DT

Dmitry Titov in Data Engineers

Anton Zadorozhniy

в добавок ко всему этому он сэмплам дает номера, служебное слово SAMPLEID

А с диска он все читает? или только размер семпла+-?

источник

21:12пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

Вот после ТД в других СУБД мне именно квалифая недоставало особенно сильно, по крайней мере первое время

В Snowflake есть тож теперь, вообще странно что в стандарт не попадёт, такой довольно очевидный и несложный syntax sugar

источник

21:13пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

А с диска он все читает? или только размер семпла+-?

Если сэмпл по числу строк - только минимум (можно отдельно сказать with randomized allocation, тогда он дополнительно прочитает и рандомизирует), сэмпл по фракциям идёт от всего резалтсета, так что все прочитает

источник

21:14пожаловаться #15

DT

Dmitry Titov in Data Engineers

Anton Zadorozhniy

Если сэмпл по числу строк - только минимум (можно отдельно сказать with randomized allocation, тогда он дополнительно прочитает и рандомизирует), сэмпл по фракциям идёт от всего резалтсета, так что все прочитает

Ага, понятно

источник

21:19пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

То есть минимум зависит от того какая таблица, колоночная или строчная, лежит у нас на диске или паркетом в S3, но смысл тот же для всех

источник

21:36пожаловаться #17

P

Pavel in Data Engineers

Повелитель Бури

И ? В чем соль?

Gzip unsplittable

источник

21:57пожаловаться #18

UD

Uncel Duk in Data Engineers

Gzip unsplittable

Есть костыли

источник

21:59пожаловаться #19

UD

Uncel Duk in Data Engineers

Склеивать несколько архивов

источник

22:00пожаловаться #20