Телеграмм чат группы metrics_ru страница 6752

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Церковь метрик

2770 membersпожаловаться на группу

2021 January 29

VA

V A in Церковь метрик

потому что Zabbix Делает триггеры поверх данных которые кладет в SQL (Postgres TimeScaleDB для Zabbix5)
то есть сначала вам надо ваши graphite будет вытянуть в Zabbix
а потом уже настроить какие то триггеры

и у вас будет ЛАГ лишний и дублирование данных

Понял, спасибо большое

источник

10:48пожаловаться #1

VA

V A in Церковь метрик

https://github.com/adubkov/graphite-to-zabbix
нате ...
трахайтесь =)

adubkov/graphite-to-zabbix

Graphite to zabbix proxy, allow use zabbix triggers with graphite data. - adubkov/graphite-to-zabbix

Я уже мойру попробовать решил для начала)

источник

10:50пожаловаться #2

vk

vladimir kolobaev in Церковь метрик

Я уже мойру попробовать решил для начала)

Мойра топ!

источник

12:24пожаловаться #3

AV

Aliaksandr Valialkin in Церковь метрик

(((topk(15, sum by(host) (irate(nginx_vts_server_requests_total{code=~"(1|2|3|4|5)xx",host!="*"}[3m]))))))
сравнивал на таком запросе. Свежей головой посмотрел и понял, что он кривой. Да оптимизация очень вероятно принесет свои плоды, но факт есть факт...прометей вывозил, вика нет (

этот запрос используется для построения графика в графане или для алертов? Если для графика в графане, то покажите, что возвращают запросы count(count_over_time(nginx_vts_server_requests_total{code=~"(1|2|3|4|5)xx",host!="*"}[1h]) и count(count_over_time(nginx_vts_server_requests_total{code=~"(1|2|3|4|5)xx",host!="*"}[5m]) в проме и в вм? Первый запрос вернет количество рядов, которые затрагиваются при выполнении запроса за последний час (см. [1h] в запросе. Второй - количество затронутых рядов за последние 5 минут (см. [5m] в запросе. Если эти значения сильно отличаются, то это означает, что старые ряды постоянно заменяются на новые (aka high churn rate). Так может происходить, если в метрике nginx_vts_server_requests_total часто меняется какой-нибудь лейбл. Ряд однозначно идентифицируется его именем плюс набором его лейблов. Если значение хотя бы одного лейбла меняется, то создается новый ряд. При high churn rate может получиться, что в каждом ряду содержится совсем маленькое количество точек (до 100 на ряд, т.е. если ряды меняются чаще, чем раз в час для 30-секундного scrape interval'а - 30с*100точек=3000 секунд). ВМ оптимизирована под хранение и обработку рядов со сравнительно большим количеством точек (более 100 на ряд). Если в большинстве рядов, участвующих в запросе, содержится маленькое количество точек, то вм может работать не очень эффективно из-за накладных расходов, связанных с распаковкой данных для каждого ряда. Подозреваю, что это ваш случай.

Для определния количества новых рядов, созданных за последний час, можно выполнить запрос vm_new_timeseries_created_total[1h]) (предполагается, что для вм уже настроен мониторинг https://victoriametrics.github.io/#monitoring ). Для определения лейблов, приводящих к high churn rate, можно посмотреть на страницу /api/v1/status/tsdb .

VictoriaMetrics

The Aspiring Monitoring Solution

источник

17:05пожаловаться #4

AV

Aliaksandr Valialkin in Церковь метрик

Вадим

статья об оптимизации создания и хранения гистограмм в victoriaMetrics - пока нет возможности изучать и спользовать ее
хотелось бы понять что на практике лучше использовать - гистограммы или саммариз?

На практике все зависит от желаемого результата. Если важно знать распределение значений метрики (например, если значения распределены не по нормальному закону, а имеют несколько "всплесков" и эти "всплески" могут перемещаться по шкале значений с течением времени), то лучше использовать гистограммы с бакетами, покрывающими с хорошим разрешением большинство возможных значений метрики. Если же важно знать максимальное значение метрики для какого-то процента измерений (например, максимальное время ответа для 95% пользователей aka 95-й персентиль), то тогда используйте summary.

источник

17:12пожаловаться #5

В

Вадим in Церковь метрик

Aliaksandr Valialkin

На практике все зависит от желаемого результата. Если важно знать распределение значений метрики (например, если значения распределены не по нормальному закону, а имеют несколько "всплесков" и эти "всплески" могут перемещаться по шкале значений с течением времени), то лучше использовать гистограммы с бакетами, покрывающими с хорошим разрешением большинство возможных значений метрики. Если же важно знать максимальное значение метрики для какого-то процента измерений (например, максимальное время ответа для 95% пользователей aka 95-й персентиль), то тогда используйте summary.

спасибо за подробное разъяснение!
а вот реальными примерами про гистограммы можно?
толковых материалов по реальным применениям мало - поэтому сложно сориентироваться когда их применять

источник

17:17пожаловаться #6

AV

Aliaksandr Valialkin in Церковь метрик

Denys 💛📈 💫 Zhdanov

Ушла эпоха - https://groups.google.com/g/prometheus-developers/c/t3ywJj9tmco

Надеюсь, что Prometheus без Брайана не превратится в какашку

источник

17:21пожаловаться #7

AV

Aliaksandr Valialkin in Церковь метрик

Вадим

спасибо за подробное разъяснение!
а вот реальными примерами про гистограммы можно?
толковых материалов по реальным применениям мало - поэтому сложно сориентироваться когда их применять

Обычно гистограммы используют вместо саммари, если нужна возможность объединения гистограмм по нескольким метрикам. Например, у вас есть кластер микросервисов, и вы измеряете время выполнения запроса на каждом микросервисе. Если вам нужно подсчитать время выполнения запроса по всем микросервисам (минимальное, максимальное, какой-нибудь квантиль), либо построить heatmap по времени выполнения запроса по всем микросервисам, то тут без гисторграмм не обойтись, т.к. квантили по отдельным сервисам нельзя объединять. Гистограммы же легко объединять путем сложения бакетов. После объединения можно легко подсчитать нужные квантили или посторить heatmap. Единственный момент - объединение работает только для гистограмм, содержащих одинаковый набор бакетов с одинаковыми границами.

источник

17:47пожаловаться #8

НБ

Никита Бафометович... in Церковь метрик

Всем привет! Стоит задача собрать через прометеус информацию о уникальных юзерах за определенный промежуток времени, но столкнулся с проблемой в реализации.
На данный момент метрика выглядит как СounterVec unique_client{platform, client_id} и конечно же любая кверя в promql относительно времени сейчас и сколько-то минут назад будет показывать постоянную константу так как количество юзеров только растет каунтер же. Если пытаться прикрутить метрике лейбл timestamp то количество данных возрастет неимоверно и прометеус просто падает. Как решают подобные вопросы?

источник

17:47пожаловаться #9

AF

Andrey F in Церковь метрик

Aliaksandr Valialkin

Обычно гистограммы используют вместо саммари, если нужна возможность объединения гистограмм по нескольким метрикам. Например, у вас есть кластер микросервисов, и вы измеряете время выполнения запроса на каждом микросервисе. Если вам нужно подсчитать время выполнения запроса по всем микросервисам (минимальное, максимальное, какой-нибудь квантиль), либо построить heatmap по времени выполнения запроса по всем микросервисам, то тут без гисторграмм не обойтись, т.к. квантили по отдельным сервисам нельзя объединять. Гистограммы же легко объединять путем сложения бакетов. После объединения можно легко подсчитать нужные квантили или посторить heatmap. Единственный момент - объединение работает только для гистограмм, содержащих одинаковый набор бакетов с одинаковыми границами.

вроде и на русском, но понятнее не становится :) квантили бакеты :)

источник

17:52пожаловаться #10

В

Вадим in Церковь метрик

Aliaksandr Valialkin

Обычно гистограммы используют вместо саммари, если нужна возможность объединения гистограмм по нескольким метрикам. Например, у вас есть кластер микросервисов, и вы измеряете время выполнения запроса на каждом микросервисе. Если вам нужно подсчитать время выполнения запроса по всем микросервисам (минимальное, максимальное, какой-нибудь квантиль), либо построить heatmap по времени выполнения запроса по всем микросервисам, то тут без гисторграмм не обойтись, т.к. квантили по отдельным сервисам нельзя объединять. Гистограммы же легко объединять путем сложения бакетов. После объединения можно легко подсчитать нужные квантили или посторить heatmap. Единственный момент - объединение работает только для гистограмм, содержащих одинаковый набор бакетов с одинаковыми границами.

👌ага вот где собака порылась!
я по простоте своей решил все саммариз покрыть и сводить их потом в одну диаграмму - а оно то не сводимое! спасибо!такого нигде не читал

Подскажите еще одну вещь - насколько затратно потом считать все квантили по гистограммам - в доке пугают что это может стать узким местом в мониторинге

Правильно ли я понимаю что гистограммы лучше использовать для измерения времени?
(я например не могу себе даже представить какие и сколько корзин я должен описать для размеров запросов/ответов - настолько it depends of user data)

источник

17:53пожаловаться #11

AS

Aleksey Shirokikh in Церковь метрик

вроде и на русском, но понятнее не становится :) квантили бакеты :)

https://prometheus.io/docs/practices/histograms/#errors-of-quantile-estimation попробуй тут на английском

Histograms and summaries | Prometheus

An open-source monitoring system with a dimensional data model, flexible query language, efficient time series database and modern alerting approach.

источник

17:53пожаловаться #12

В

Вадим in Церковь метрик

Aleksey Shirokikh

https://prometheus.io/docs/practices/histograms/#errors-of-quantile-estimation попробуй тут на английском

Histograms and summaries | Prometheus

An open-source monitoring system with a dimensional data model, flexible query language, efficient time series database and modern alerting approach.

это я уже раза 3 с лупой читал! :)

источник

17:54пожаловаться #13

AS

Aleksey Shirokikh in Церковь метрик

Вадим

это я уже раза 3 с лупой читал! :)

понимаю. я 2 недели в голову укладывал. но после того как уложил понял что без этого вообще в мониторинге делать нечего

источник

17:59пожаловаться #14

В

Вадим in Церковь метрик

Aleksey Shirokikh

понимаю. я 2 недели в голову укладывал. но после того как уложил понял что без этого вообще в мониторинге делать нечего

уговорили, сегодня с микроскопом перепрочту )

источник

17:59пожаловаться #15

AV

Aliaksandr Valialkin in Церковь метрик

Никита Бафометович

Всем привет! Стоит задача собрать через прометеус информацию о уникальных юзерах за определенный промежуток времени, но столкнулся с проблемой в реализации.
На данный момент метрика выглядит как СounterVec unique_client{platform, client_id} и конечно же любая кверя в promql относительно времени сейчас и сколько-то минут назад будет показывать постоянную константу так как количество юзеров только растет каунтер же. Если пытаться прикрутить метрике лейбл timestamp то количество данных возрастет неимоверно и прометеус просто падает. Как решают подобные вопросы?

эта проблема не решается в прометеусе. Вам нужен кликхаус, чтобы сохранять события с уникальными айдишками пользователей и потом делать выборки за любой промежуток времени с помощью unique(user_id)

источник

18:00пожаловаться #16

IE

Ivan EKbfh in Церковь метрик

Aleksey Shirokikh

понимаю. я 2 недели в голову укладывал. но после того как уложил понял что без этого вообще в мониторинге делать нечего

2 недели?

источник

18:00пожаловаться #17

НБ

Никита Бафометович... in Церковь метрик

Aliaksandr Valialkin

эта проблема не решается в прометеусе. Вам нужен кликхаус, чтобы сохранять события с уникальными айдишками пользователей и потом делать выборки за любой промежуток времени с помощью unique(user_id)

так и думал, спасибо!

источник

18:00пожаловаться #18

AS

Aleksey Shirokikh in Церковь метрик

2 недели?

ну ладно ладно. месяца

источник

18:00пожаловаться #19

В

Вадим in Церковь метрик

немного не в тему (в канале по логам не ответили)
как на практике в логах расследовать инциденты с юзерами если в логах нет конфиденциальной и идентифицирующей информации о юзерах?
(из соображений безопасности в приличных публичных организациях такая инфа не должна попадать в логи)

источник

18:11пожаловаться #20