Size: a a a

Церковь метрик

2021 February 10

S

Slach in Церковь метрик
Anatoly Pugachev
у VM (victoria metrics) есть аналог promtool (prometheus) ? если какое-нибудь задание (job, scrape target) начнет отдавать в разы больше чем надо - чем это смотреть? например в prometheus есть promtool - и можно глянуть что там в WAL у нас с метриками и лейблами
https://t.me/VictoriaMetrics_ru1
тут спрашивали?
источник

AP

Anatoly Pugachev in Церковь метрик
спасибо
источник

AV

Aliaksandr Valialkin in Церковь метрик
Alexey Polyakov
и пропадают точки (та дыра на графике) целыми батчами (в батче примерно 17к разных точек).  К примеру, было отправлено 10 батчей в момент когда vminsert не был доступен для vmagent, батчи ушли нормально (200 коды от него получены), ошибок с стороны vmagent не было, в логах только 503 ошибки от haproxy за которым vminset'ы сидят, после этого vmagent нормальным образом убивается, что было в памяти он сбрасывает в персистстор, вот только судя по всему сбрасывает он туда не 10 батчей, а почему-то первый батч, потом дыра в 3-4 батча, по разному бывает, и затем остатки батчей. После запуска он их и сбрасывает в vminsert. проверял по метрикам, сколько сбросил в байтах в стор столько и отправил. Куда делись 3-4 батча с точками по пути - не понятно...
Проблема воспроизводится только через остановку vmagent, если он продолжает работать, после восстановления vminsert'ов он нормально все батчи скидывает, без потерь.
Похоже на багу. Можете создать issue на гитхабе с описанием, как ее воспроизвести? https://github.com/VictoriaMetrics/VictoriaMetrics/issues
источник

AV

Aliaksandr Valialkin in Церковь метрик
Anatoly Pugachev
у VM (victoria metrics) есть аналог promtool (prometheus) ? если какое-нибудь задание (job, scrape target) начнет отдавать в разы больше чем надо - чем это смотреть? например в prometheus есть promtool - и можно глянуть что там в WAL у нас с метриками и лейблами
См. также /api/v1/status/tsdb - https://prometheus.io/docs/prometheus/latest/querying/api/#tsdb-stats . ВМ тоже отдает эту страничку. Еще она поддерживает дополнительные параметры topN и date - см. подробности вот тут - https://victoriametrics.github.io/#prometheus-querying-api-usage . Еще может быть полезны метрики scrape_samples_scraped и scrape_samples_added . См. https://www.robustperception.io/which-targets-have-the-most-samples .
@hagen1778 , думаю, можно написать статью по этому вопросу.
источник

AP

Alexey Polyakov in Церковь метрик
Aliaksandr Valialkin
Похоже на багу. Можете создать issue на гитхабе с описанием, как ее воспроизвести? https://github.com/VictoriaMetrics/VictoriaMetrics/issues
Да, уже
источник

RK

Roman Khavronenko in Церковь метрик
Aliaksandr Valialkin
См. также /api/v1/status/tsdb - https://prometheus.io/docs/prometheus/latest/querying/api/#tsdb-stats . ВМ тоже отдает эту страничку. Еще она поддерживает дополнительные параметры topN и date - см. подробности вот тут - https://victoriametrics.github.io/#prometheus-querying-api-usage . Еще может быть полезны метрики scrape_samples_scraped и scrape_samples_added . См. https://www.robustperception.io/which-targets-have-the-most-samples .
@hagen1778 , думаю, можно написать статью по этому вопросу.
ack
источник
2021 February 11

קה

קפיצת הדרך in Церковь метрик
NB
Подскажите верное направление, если надо мониторить 4-5 очень похожих кластеров, как лучше реализовать структуру: установить по прометею внутри кластера и вытягивать данные в вышестоящий прометей? Если да, то как это делается, через федерацию?
Я Таносом сделал
источник

קה

קפיצת הדרך in Церковь метрик
Десяток Прометеев и один Танос to rule them all
источник

AL

Anatoly Laskaris in Церковь метрик
Танос легаси уже считай 😏
источник

SB

Stanislav Buldakov in Церковь метрик
Anatoly Laskaris
Танос легаси уже считай 😏
Вот это поворот! А что не легаси? 🙂
источник

AL

Anatoly Laskaris in Церковь метрик
Stanislav Buldakov
Вот это поворот! А что не легаси? 🙂
Виктория же? Сам по себе прометей будет скоро уметь remote_write читать
Танос пилили в очень темные времена, когда remote_write не было. Слишком сложный он архитектурно
источник

SB

Stanislav Buldakov in Церковь метрик
Топчик. Варианты миграции с промки сужаются 😁
источник

АП

Андрей Петров... in Церковь метрик
а кто юзает alerta.io ? как вам ? я ее пока смотрю, но чет коряво получается. Очень нужно поле кластер по которому тоже будет дедуплицироваться
источник

AP

Anatoly Pugachev in Церковь метрик
коллеги, а подскажите как мне в прометее отфильтровать (relabel_config) , чтобы оставить метрики только с определенной label, а все остальные дропнуть? спасибо
- keep отработает
источник

G

GithubReleases in Церковь метрик
grafana/grafana tagged: v7.4.1
Link: https://github.com/grafana/grafana/releases/tag/v7.4.1
Release notes:
release v7.4.1
источник

TF

Terry Filch in Церковь метрик
Андрей Петров
а кто юзает alerta.io ? как вам ? я ее пока смотрю, но чет коряво получается. Очень нужно поле кластер по которому тоже будет дедуплицироваться
karma для prometheus
источник

TF

Terry Filch in Церковь метрик
Андрей Петров
а кто юзает alerta.io ? как вам ? я ее пока смотрю, но чет коряво получается. Очень нужно поле кластер по которому тоже будет дедуплицироваться
источник

НБ

Никита Бафометович... in Церковь метрик
Как лучше всего реализовать запрос подсчета реквестов за временной промежуток, при $__range > 24h датасорс начинает выдавать Bad Gateway либо Service Unavailable
Считаю так: round(sum(increase(metric[$__range])))
источник

HC

Henry Chinaski in Церковь метрик
Всем привет!
Подскажи, пожалуйста, как исправить следующую ситуацию:
- поставил куб-прометеус-стек из чарта
https://artifacthub.io/packages/helm/prometheus-community/kube-prometheus-stack
Добавил сервисМонитор для приложений. И всё бы ничего, но в дашбордах присутствуют переменные label_values(application), а в прометеусе /api/v1/label/instance/values указаны ip, а не хосты.
Я так понимаю, надо relabeling делать? Или чего-то упустил на этапе установки?
источник

AV

Aliaksandr Valialkin in Церковь метрик
Никита Бафометович
Как лучше всего реализовать запрос подсчета реквестов за временной промежуток, при $__range > 24h датасорс начинает выдавать Bad Gateway либо Service Unavailable
Считаю так: round(sum(increase(metric[$__range])))
Запрос вроде правильный. Вы отрисовываете график по этому запросу или используете его для отображения одного числа (aka instant query). При отрисовке графика датасорс должен подсчитать выражение из запроса для каждой точки на графике. Это может занять в N раз больше времени по сравнению с аычислением одного значения в instant query, где N - количество точек на графике. Объем вычислений для графика можно снизить путем увеличения параметра step в настройках графика, чтобы возвращалось меньше точек.
Интересно, что за датасорс вы используете? Может, стоит попробовать другой датасорс?
источник