Size: a a a

Церковь метрик

2020 August 25

AS

Aleksey Shirokikh in Церковь метрик
источник

AA

Andrey A in Церковь метрик
да, она у нас есть
источник

AS

Aleksey Shirokikh in Церковь метрик
ну вот на алерт что всё плохо делайте вызов mtr
источник

A

Alexander in Церковь метрик
Andrey A
Добрый день!
есть пару сайтов, находящихся где-то на Украине у одного хостера. Наш робот периодами к ним
ходит и собирают с них какую-то инфу. Периодически робот сталкивается с сетевыми ошибками.
Владельцы этих сайтов заинтересованы, чтобы наш робот к ним ходил и не было таких проблем.
Был некоторый пинг-понг между нами и техподдержкой того хостера о том, на чьей же стороне проблема.
В общем мне передали задачу. Было бы довольно просто, если бы проблема воспроизводилась постоянно, но
она очень плавающая (mtr вроде б могла немного прояснить ситуацию).
Т.к. у нас графитовый стек для приема метрик, я настроил плагин ping у collectd. Получаю метрики по
времени отклика и drop rate пингов.
Робот находится в ДЦ одного хостера N. У данного хостера 2 независимых канала, робот ходит через первый.

Получение метрик настроил по следующему принципу: пару серверов (на одном из них работает робот), выходящих в сеть через 1-ый канал ДЦ
хостера N, один сервер - через 2-ой, еще один сервер - находится в хетцнере.

После некоторого наблюдения видно, что drop rate с наших серверов, находящихся в ДЦ хостера N, периодами достигает 20%.
А у сервера, находящегося в hz, потерь практически нет (ну или иногда бывает в пару %).
Хотя наш хостер N и заявляет, что у него 2 совсем независимых канала, но пока метрикам подтверждается, что
проблема есть.
Но теперь встает вопрос - как более полно понять где именно проблема?
Видится, что надо нечто mtr-а, которая будет запускаться периодами и показывать потери/время отклика по каждому
из хопов ведущему к проблемному сайту. Как вообще такие метрики получить?
Понятно, что mtr не является сильно точной методикой проверки, но есть метод лучше?
Смысла мерить дропы у хопов мало. Потому что отвечает тебе контрол плейн, а трафик форвардит датаплейн.
источник

A

Alexander in Церковь метрик
Вполне может быть нормальной ситуацией, что у тебя какой-то хоп дропает четверть пакетов и работает нормально.
источник

AA

Andrey A in Церковь метрик
да, я это понимаю
источник

AF

Andrey F in Церковь метрик
кстати, а как нынче модно в графану дашборды автоматом менеджить?
источник

AS

Aleksey Shirokikh in Церковь метрик
Andrey A
да, я это понимаю
короче вашему хостеру или isp нужен будет mtr длятого что бы начать дебажить вашу проблему.
источник

AS

Aleksey Shirokikh in Церковь метрик
дайте ему его
источник

AS

Aleksey Shirokikh in Церковь метрик
100500 лет назад был smokeping.
источник

AS

Aleksey Shirokikh in Церковь метрик
сейчас для прома есть https://github.com/SuperQ/smokeping_prober
источник

AS

Aleksey Shirokikh in Церковь метрик
может есть и для графита чего
источник

AS

Aleksey Shirokikh in Церковь метрик
Andrey F
кстати, а как нынче модно в графану дашборды автоматом менеджить?
класть в диреткорию уже не модно ?
источник

AA

Andrey A in Церковь метрик
Aleksey Shirokikh
может есть и для графита чего
ну да, плагин ping у collectd это и делает (collectd отправляет метрики в графит)
источник

AS

Aleksey Shirokikh in Церковь метрик
Andrey F
кстати, а как нынче модно в графану дашборды автоматом менеджить?
источник

AA

Andrey A in Церковь метрик
sla probes - выдаются ссылки по сетевому железу, т.е. делаются со стороны провайдера?
источник

AF

Andrey F in Церковь метрик
да я что то сто лет не смотрел, решил сначала вот спросить у народа, они вроде недавно что то в этом деле перепиливали
источник

AS

Aleksey Shirokikh in Церковь метрик
Andrey A
sla probes - выдаются ссылки по сетевому железу, т.е. делаются со стороны провайдера?
ну всякое бывает. бывает и к клиентам ставят. но это как правило клинические случаи
источник

AS

Aleksey Shirokikh in Церковь метрик
такого класса железяки ставятся что бы как раз миновать проблему с тем что отвечает контролплейн
источник

AS

Aleksey Shirokikh in Церковь метрик
в сла пробниках бывают алгоритмы похитрее
источник