Size: a a a

Церковь метрик

2020 June 16

A

Andor in Церковь метрик
Это чо, послезавтра уже?
источник

AS

Aleksey Shirokikh in Церковь метрик
шок!
источник
2020 June 17

ST

Sergey Trapeznikov in Церковь метрик
GPU ресурсы кроме как статы девайсов кто то мониторит для контейнеров через прометея? Я чет все доки nvidia перерыл, такого функционала чтобы знать сколько контейнер GPU кушает нет, может видел кто способ?
источник

GM

Gleb Mekhrenin in Церковь метрик
если у тебя не теслы то хз какие вообще варианты могут быть
источник

AS

Aleksey Shirokikh in Церковь метрик
а ты без прометея вообще поищи. мне кажется эти ресурсы вообще фигово аккаунтятся
источник

GM

Gleb Mekhrenin in Церковь метрик
для тесл там экосистема целая вокруг data center gpu manager
источник

ST

Sergey Trapeznikov in Церковь метрик
Gleb Mekhrenin
если у тебя не теслы то хз какие вообще варианты могут быть
теслы, gtx, titanx
источник

ST

Sergey Trapeznikov in Церковь метрик
Gleb Mekhrenin
для тесл там экосистема целая вокруг data center gpu manager
ну вот я dcgm задеплоил, он собирает тупо девайс статы
источник

GM

Gleb Mekhrenin in Церковь метрик
в нем где то должен быть аккаунтинг
источник

A

Alexander in Церковь метрик
Sergey Trapeznikov
GPU ресурсы кроме как статы девайсов кто то мониторит для контейнеров через прометея? Я чет все доки nvidia перерыл, такого функционала чтобы знать сколько контейнер GPU кушает нет, может видел кто способ?
Там, вроде, можно через nvidia-smi по процессам вытащить только потребление памяти. Информации по потреблению вычресурсов, вроде, нет.
источник

ST

Sergey Trapeznikov in Церковь метрик
Alexander
Там, вроде, можно через nvidia-smi по процессам вытащить только потребление памяти. Информации по потреблению вычресурсов, вроде, нет.
не, этого хватит, мне прост надо знать сколько у меня модель в поде жрет памяти от GPU
источник

ST

Sergey Trapeznikov in Церковь метрик
в доке DCGM\NVML не увидел пока
источник

GM

Gleb Mekhrenin in Церковь метрик
источник

ST

Sergey Trapeznikov in Церковь метрик
источник

SM

Sergey Monakhov in Церковь метрик
можно попробовать дописать - https://github.com/NVIDIA/gpu-monitoring-tools
по дефолту не матчит, только инфа по девайсам
источник

SM

Sergey Monakhov in Церковь метрик
там в целом нужно узнать какой уид карты прокинут в под и это можно сматчить, он там в енв валяется
источник

S

Slvr in Церковь метрик
Sergey Trapeznikov
GPU ресурсы кроме как статы девайсов кто то мониторит для контейнеров через прометея? Я чет все доки nvidia перерыл, такого функционала чтобы знать сколько контейнер GPU кушает нет, может видел кто способ?
источник

S

Slvr in Церковь метрик
первый в списке - посмотри сорцы, чем снимают и что
источник

S

Slvr in Церковь метрик
источник
2020 June 18

.

.̛̟͇͢͞ in Церковь метрик
А как в проме/вм можно получить все точки для метрики с лейблом, в котором есть определенные значения?
Например, есть metric {hostname =~ ".*" } со значениями 0, 1 и 2
А вернуть нужно все точки, но только для тех hostname, где за интервал есть значение метрики 1
источник