Size: a a a

Церковь метрик

2020 June 19

E

Eugene in Церковь метрик
Продолжая копать можно снимать с него метрики и смотреть на наполненность этого всего и как он себя ведёт.

https://github.com/influxdata/telegraf/tree/master/plugins/inputs/internal

Тож бывает полезно знать что приключается на тачках и почему метрики задерживаются
источник

AS

Aleksey Shirokikh in Церковь метрик
Eugene
Продолжая копать можно снимать с него метрики и смотреть на наполненность этого всего и как он себя ведёт.

https://github.com/influxdata/telegraf/tree/master/plugins/inputs/internal

Тож бывает полезно знать что приключается на тачках и почему метрики задерживаются
о! это хорошее дело.
@EKbfh
источник

НА

Наталья Александровн... in Церковь метрик
metric_batch_size = 1000
metric_buffer_limit = 10000
источник

E

Eugene in Церковь метрик
Это прям хорошо
источник

НА

Наталья Александровн... in Церковь метрик
но эта проблема есть и на хостах где почти нет метрик
источник

НА

Наталья Александровн... in Церковь метрик
типо только стандартные чтобы знать что хост в целом жив
источник

НА

Наталья Александровн... in Церковь метрик
только на одном хосте требовалось увеличение буферов, но там много докеров и всякого разного
источник

E

Eugene in Церковь метрик
попробуй запустить

telegraf -config /etc/telegraf/telegraf.com -config-directory /etc/telegraf/telegraf.d  --test

и посмотреть как быстро он инпуты опросит.

Или у тебя input.socket_listener какой нить и это не поможет?
источник

E

Eugene in Церковь метрик
10к - не хватило на 10с

Даа, включи логирование посмотри на что он ругается. Он может не успевать отправлять например и тут можно включить сжатие(gzip) на отправку, если доступно и увеличить батчсайз.

Метрики будут передаваться большЕй пачкой, и сжиматься лучше, так же это уменьшит общение по сети.

Остальное хз, надо смотреть что собирается, как собирается, сетевую доступность и так далее.

ну или вглубь лезть как Алексей предложил, ппроф и сборка тестового стенда
https://github.com/influxdata/telegraf/blob/master/docs/PROFILING.md
источник

MK

Maxim Korolev in Церковь метрик
Наталья Александровна
нет, собираю раз в 10 отправляю раз в 10, но когда попыталась перейти на раз в 30с начались адские разрывы на графиках
А в конфиге кликхауса в graphite-rollup не 10 сек минимальный precision?
источник

НА

Наталья Александровн... in Церковь метрик
Maxim Korolev
А в конфиге кликхауса в graphite-rollup не 10 сек минимальный precision?
Он хранит как положишь если не делать optimize
источник

VS

Vladimir Smirnov in Церковь метрик
Наталья Александровна
Он хранит как положишь если не делать optimize
но при чтении из него (если через graphite-clickhouse) он будет стараться зароллапить, а то у графита иначе будет очень веселый график
источник

ВС

Вячеслав Смирнов... in Церковь метрик
Не сталкивался с проблемой неотправки метрик из Telegraf, но сталкивался с тем, что Graphite Listener (TCP) из InfluxDB при большом пакете входящих метрик не разбирает их.

Он не успевает уложиться, может ещё что-то. И метрики теряются. Диагностировать сложно, так как в отличии от InfluxDB http для gatling Graphite tcp нельзя включить логирование входящих запросов.
источник

ВС

Вячеслав Смирнов... in Церковь метрик
Решил для себя проблему уменьшением и упрощением правил разбора входящих метрик
[[graphite]]
templates=[...]

И стал меньше присылать метрик с большим количеством точек (тегов). Это положительно повлияло на скорость и стабильность разбора. Теперь 0% потерь

Зависимости от интервала отправки не наблюдал

Может эта информация пригодится @nshumshurova
источник

VS

Vladimir Smirnov in Церковь метрик
Вячеслав Смирнов
Не сталкивался с проблемой неотправки метрик из Telegraf, но сталкивался с тем, что Graphite Listener (TCP) из InfluxDB при большом пакете входящих метрик не разбирает их.

Он не успевает уложиться, может ещё что-то. И метрики теряются. Диагностировать сложно, так как в отличии от InfluxDB http для gatling Graphite tcp нельзя включить логирование входящих запросов.
Ну от инфлюкса сложно иное ожидать :)
источник

ВС

Вячеслав Смирнов... in Церковь метрик
Vladimir Smirnov
Ну от инфлюкса сложно иное ожидать :)
Это хороший инструмент. Он мне помогает. Приносит пользу
источник

ВС

Вячеслав Смирнов... in Церковь метрик
Я бы в ситуации Натальи уменьшил пакет и упростил его структуру
источник

ВС

Вячеслав Смирнов... in Церковь метрик
У меня была такая структура пакетов. На уровне группировки 2 и выше (5 тегов и одно поле) терял до 10 % метрик при частоте отправки 1 в сек. При частоте 1 в 10 сек тоже терял, меньше уже. Совсем перестал терять отказавшись от "длинных" метрик
источник

ВС

Вячеслав Смирнов... in Церковь метрик
И может поможет - отказ от округления времени отправки до 30 сек.

[agent]
round_interval = false
flush_jitter = "10s"

Это разгрузит принимающий сервер от потока пакетов каждые 30 сек. Будет разброс.
источник

НА

Наталья Александровн... in Церковь метрик
Вячеслав Смирнов
Решил для себя проблему уменьшением и упрощением правил разбора входящих метрик
[[graphite]]
templates=[...]

И стал меньше присылать метрик с большим количеством точек (тегов). Это положительно повлияло на скорость и стабильность разбора. Теперь 0% потерь

Зависимости от интервала отправки не наблюдал

Может эта информация пригодится @nshumshurova
🙏 спасибо
источник