Телеграмм чат группы rannts страница 2984

Вроде как ещё было что-то кроме цитуса, тоже плагином

16:27пожаловаться #1

KK

Там суть плагина в автоматизации управления партами (ну и шардирование, если надо)

16:28пожаловаться #2

KK

Ну в общем суть ты понял - надо обмазываться патрицированием. У этих решений в блогах было более менее подробное описание что они делают, что бы добиться скорости. Можешь поискать, почитать и попробовать ручками и процедурами запилить простенькую версию их решения

16:30пожаловаться #3

БС

да про партиционирования я знаю.. только многие задачирешаются и без этого. Давно все придумано и написано. Мне даже когда то попадался подобный сборник, но найти сейчас не могу

16:35пожаловаться #4

KK

да про партиционирования я знаю.. только многие задачирешаются и без этого. Давно все придумано и написано. Мне даже когда то попадался подобный сборник, но найти сейчас не могу

Без патрицирования - это наверное только через "функциональный" индекс от даты. Например по году + номер месяца, что бы хотя бы это быстро найти. Но большая таблица - это уже медленная таблица, даже если есть индексы. Особенно медленным будет удаление старых данных. Ты быстро повстречаешь деда "Вакуума". Да и просто удаление строк - это не быстро. А вот полное удаление таблицы (которая и есть представление одного парта) - это быстро и не вызывает "деда".

16:50пожаловаться #5

БС

кирилл, я знаю про и вакуум и про партиции.. Это не ответ на вопрос.

16:52пожаловаться #6

БС

в моем бы случае это решилось бы расширением hll, но его мне не поставить. оно не в white listе 😞

16:52пожаловаться #7

KK

кирилл, я знаю про и вакуум и про партиции.. Это не ответ на вопрос.

Ну твоя проблема "много данных" + "нельзя делать предагрегацию, что бы данных было меньше". Такое в постгре, кроме как патрицированием по моему ни как толком и не решается. Всё что я видел было именно через это.

16:54пожаловаться #8

БС

кто сказал, что нельзя делать предагрегацию?

16:55пожаловаться #9

KK

Ну ты сказал что данных много. Значит уже вариант предагрегации откинул, т.к. это первое что приходит в голову

16:57пожаловаться #10

KK

Плюс произвольные периоды времени. А насколько произвольные? С точностью до дня или часа?

16:57пожаловаться #11

KK

И тут ещё про таймзоны можно вспомнить, если это имеет значение.

16:57пожаловаться #12

KK

Я когда то делал вот такую предагрегацию для уменьшения размера таблицы. Одна строка в таблице - это id метрики, год и array-поле куда добавлялись значения метрики (integer) по каждому дню в году.
Само собой была вторая таблица с сырыми "хитами", которая аггрегировалась раз в сутки и очищалась.

17:07пожаловаться #13

БС

ну вот я подобное хочу сделать. Но посчитанная инфа за каждый день не позволит найти число уникальных юзеров за год. Для этого hyperloglog придумали, у него, помоему, можно мержить состояния.
Возможно можно обойтись и без этой магии, но я пока не знаю как.

17:17пожаловаться #14

KK

ну вот я подобное хочу сделать. Но посчитанная инфа за каждый день не позволит найти число уникальных юзеров за год. Для этого hyperloglog придумали, у него, помоему, можно мержить состояния.
Возможно можно обойтись и без этой магии, но я пока не знаю как.

А если в таблицу юзеров добавить array с годами, в которые этот юзер "засветился"? Не думаю что это поле будет большим. Ну лет 50 если проработает сервис без изменений - это уже круто.

17:23пожаловаться #15

KK

Но если периоды буду совсем произвольные, то такое не прокатит

17:24пожаловаться #16

БС

в принципе можно..
но в постгресе лучше ничего не обновлять. ибо в нем обновление это delete & insert. Со всеми проблемами деда вакуума.
плюс мне нужно гранулярити почаще чем раз в год.. ну и чтобы это всё работало, нужны индексы, которые совсем не бесплатные..

17:31пожаловаться #17

2019 August 28

KK

в принципе можно..
но в постгресе лучше ничего не обновлять. ибо в нем обновление это delete & insert. Со всеми проблемами деда вакуума.
плюс мне нужно гранулярити почаще чем раз в год.. ну и чтобы это всё работало, нужны индексы, которые совсем не бесплатные..

Ты писал что-то про то, что тебе бы подошёл HyperLogLog, но это расширешине не в белом списке. Вот ещё есть расширение для постгри - PipelineDB, там типа тоже есть эта штука (и другие "вероятнстные структуры").
Вот тут чувак про это обмолвился
https://youtu.be/3WkNp7mllv0?t=1960

Может тебе весь доклад будет интересен.

18:30пожаловаться #18

БС

спасибо, но я ограничен auzrой

18:31пожаловаться #19

KK

Кстати в докладе говорится о том что TimescaleDB очень дружит с Азурой. Но это расширение в основном про хранение time-series данных, там нет каких-то продвинутых функций для аггрегаций и вычислений, которые есть в PipelineDB