Телеграмм чат группы phd

12:08пожаловаться #1

AI

Тимур, по 1 пункту можете объяснить по каким параметрам "деградируют" логи?

Я даже и близко не Тимур, но из личного опыта рискну предположить, что деградация логов - это:
1⃣ количественная деградация: раньше из подсети приходила информация о 500 парах "хост-продукт", сейчас приходит 510. Причём среди них есть 40 новых пар и не хватает 30 старых. Отсюда вопросы:
(1А) 30 отвалившихся - это проблемные хосты, которые надо чинить, или планово выведенные из сети? Или это сотрудник, который уехал в командировку в Восточную Гвинею на полгода?
(1Б) часть хостов логи присылает, но не все (скажем, ОС логи присылает, а установленная на том же хосте БД - нет). Это что-то отвалилось или просто БД (временно) стопнули?
(1В) 40 новых - это вроде как и хорошо, а вроде как и странно. Особенно если задаться вопросом, а полные ли логи мы с них получаем (например, был сервер с БД, который исправно присылал логи ОС, логи БД и логи СЗИ; потом его убрали и поставили другой сервер с БД, который присылает логи ОС, а вот логи БД не присылает - в общем, в эту сторону лучше даже не думать, ибо это из области rouge assets management, в которой можно спиться окончательно).

2⃣ Качественная деградация: логи приходят, а вот часть важного содержимого в них отсутствует:
(2А) Так происходит в результате применения новых политик: что-то поменяли в GPO или контейнер другой сделали - хоба, пропала часть событий. Через полгода заметим, если повезёт.
(2Б) Так происходит в результате обновления софта на хосте. Дальше либо формат логов меняется и парсер их неправильно парсит, либо происходят ещё всякие чудеса. (Из личной практики - после обновления цитрикса стандартный парсер СИЕМ просто перестал парсить одно из ключевых полей события подключения по ВПН. Хотя формат лога такой же, только версия изменилась. И остальные события и поля цитрикса парсятся нормально).
(2В) Так происходит, если мы что-то поменяли у себя: обновили коннектор, СИЕМ, лог-сервер, скрипт. Принцип такой же, как и в предыдущем пункте.

При этом исправление подобных проблем - та ещё расстрельная задача, потому что:
- причин масса - от изменения политик МЭ / маршрутизатора (и нарушения сетевой связности) до изменения групповых / локальных политик журналирования, настроек СЗИ, обновлений ПО, системы, тех же СЗИ, СИЕМ и так далее, до отключения хоста или ПО - постоянного или временного, и так далее, и тому подобное. Жизнь всегда что-то новое подкидывает.
- проблемы часто носят очень локализованный характер и незаметны в общем потоке событий. Это проявляется как в количестве хостов (имеем не "у меня подсеть отвалилась", а "два хоста из ста внезапно замолчали), так и в самих логах (имеем не "антивирус не присылает логи", а "события антивируса приходят, но почему-то только с файлового модуля" или "события есть, но только удаления").
- деградация происходит постоянно, она непобедима. Отслеживание её и борьба с ней - монотонная и неблагодарная задача, которая никогда не решается полностью. Заниматься ей обычно никто не хочет.
- отследить отвалившийся хост легко; сложно понять, что делать дальше. Стандартный путь - заявка в IT, чтобы разобрались. Заявок таких получается много, решаются они долго (антивирус не работает -> просим переустановить -> не работает -> дальше либо перезалить машину, что долго, либо долго и муторно разбираться в причинах, что ещё дольше).

@Gergert, скажите, получилось ли угадать хоть какой-то из пунктов 😀

20:24пожаловаться #2

Z

Alex Igonin

Я даже и близко не Тимур, но из личного опыта рискну предположить, что деградация логов - это:
1⃣ количественная деградация: раньше из подсети приходила информация о 500 парах "хост-продукт", сейчас приходит 510. Причём среди них есть 40 новых пар и не хватает 30 старых. Отсюда вопросы:
(1А) 30 отвалившихся - это проблемные хосты, которые надо чинить, или планово выведенные из сети? Или это сотрудник, который уехал в командировку в Восточную Гвинею на полгода?
(1Б) часть хостов логи присылает, но не все (скажем, ОС логи присылает, а установленная на том же хосте БД - нет). Это что-то отвалилось или просто БД (временно) стопнули?
(1В) 40 новых - это вроде как и хорошо, а вроде как и странно. Особенно если задаться вопросом, а полные ли логи мы с них получаем (например, был сервер с БД, который исправно присылал логи ОС, логи БД и логи СЗИ; потом его убрали и поставили другой сервер с БД, который присылает логи ОС, а вот логи БД не присылает - в общем, в эту сторону лучше даже не думать, ибо это из области rouge assets management, в которой можно спиться окончательно).

2⃣ Качественная деградация: логи приходят, а вот часть важного содержимого в них отсутствует:
(2А) Так происходит в результате применения новых политик: что-то поменяли в GPO или контейнер другой сделали - хоба, пропала часть событий. Через полгода заметим, если повезёт.
(2Б) Так происходит в результате обновления софта на хосте. Дальше либо формат логов меняется и парсер их неправильно парсит, либо происходят ещё всякие чудеса. (Из личной практики - после обновления цитрикса стандартный парсер СИЕМ просто перестал парсить одно из ключевых полей события подключения по ВПН. Хотя формат лога такой же, только версия изменилась. И остальные события и поля цитрикса парсятся нормально).
(2В) Так происходит, если мы что-то поменяли у себя: обновили коннектор, СИЕМ, лог-сервер, скрипт. Принцип такой же, как и в предыдущем пункте.

При этом исправление подобных проблем - та ещё расстрельная задача, потому что:
- причин масса - от изменения политик МЭ / маршрутизатора (и нарушения сетевой связности) до изменения групповых / локальных политик журналирования, настроек СЗИ, обновлений ПО, системы, тех же СЗИ, СИЕМ и так далее, до отключения хоста или ПО - постоянного или временного, и так далее, и тому подобное. Жизнь всегда что-то новое подкидывает.
- проблемы часто носят очень локализованный характер и незаметны в общем потоке событий. Это проявляется как в количестве хостов (имеем не "у меня подсеть отвалилась", а "два хоста из ста внезапно замолчали), так и в самих логах (имеем не "антивирус не присылает логи", а "события антивируса приходят, но почему-то только с файлового модуля" или "события есть, но только удаления").
- деградация происходит постоянно, она непобедима. Отслеживание её и борьба с ней - монотонная и неблагодарная задача, которая никогда не решается полностью. Заниматься ей обычно никто не хочет.
- отследить отвалившийся хост легко; сложно понять, что делать дальше. Стандартный путь - заявка в IT, чтобы разобрались. Заявок таких получается много, решаются они долго (антивирус не работает -> просим переустановить -> не работает -> дальше либо перезалить машину, что долго, либо долго и муторно разбираться в причинах, что ещё дольше).

@Gergert, скажите, получилось ли угадать хоть какой-то из пунктов 😀

вот круто) спасибо, я догадывался что именно речь об этом идёт. Но зачем это измерять через момент времени если с этим нужно постоянно бороться (не то чтобы бороться, а держать руку на пульсе)

20:28пожаловаться #3

$

вот круто) спасибо, я догадывался что именно речь об этом идёт. Но зачем это измерять через момент времени если с этим нужно постоянно бороться (не то чтобы бороться, а держать руку на пульсе)

Интересно)))

20:29пожаловаться #4

AI

вот круто) спасибо, я догадывался что именно речь об этом идёт. Но зачем это измерять через момент времени если с этим нужно постоянно бороться (не то чтобы бороться, а держать руку на пульсе)

Как вариант - просто чтобы знать, через какое время наступит полный и безоговорочный пиздец, если ничего не делать 🙂
Опять же, на эту задачу нужны определённые ресурсы. Возможно, с конкретными цифрами их выбить несколько проще 🤷‍♂

20:30пожаловаться #5

Z

если это Inhouse мероприятие то вот эта деградация процесс как правило заведомо известный, изменение настроек и т.д.

20:30пожаловаться #6

$

Alex Igonin

Как вариант - просто чтобы знать, через какое время наступит полный и безоговорочный пиздец, если ничего не делать 🙂
Опять же, на эту задачу нужны определённые ресурсы. Возможно, с конкретными цифрами их выбить несколько проще 🤷‍♂

Мат, аккуратнее)

20:30пожаловаться #7

$

если это Inhouse мероприятие то вот эта деградация процесс как правило заведомо известный, изменение настроек и т.д.

Ты точно из нашего мира?)

20:31пожаловаться #8

Z

Мат, аккуратнее)

это самое мягкое как можно описать ситуацию)))))

20:31пожаловаться #9

AI

Ты точно из нашего мира?)

Вот-вот))

20:31пожаловаться #10

Z

Ты точно из нашего мира?)

да)

20:31пожаловаться #11

AI

да)

Нет 🙅‍♂

20:31пожаловаться #12

$

да)

Ну тогда с тебя ответ на вопрос про «держать руку на пульсе» - а в стратегии и финансовом планировании ты как это учитываешь?)

20:31пожаловаться #13

AI

если это Inhouse мероприятие то вот эта деградация процесс как правило заведомо известный, изменение настроек и т.д.

В нашем мире "заранее известно" - это обычно через полгода после выхода в продакшн

20:32пожаловаться #14

Z

Ну тогда с тебя ответ на вопрос про «держать руку на пульсе» - а в стратегии и финансовом планировании ты как это учитываешь?)

а финансовое планирование это не про меня

20:32пожаловаться #15

$

а финансовое планирование это не про меня

Возвращаемся к вопросу про «мир»

20:32пожаловаться #16

Z

видимо мне с коллегами повезло, потому что о каких то изменениях я как правило знаю.

Roman Sergeev in SOС Технологии

20:32пожаловаться #17

RS

Alex Igonin

Как вариант - просто чтобы знать, через какое время наступит полный и безоговорочный пиздец, если ничего не делать 🙂
Опять же, на эту задачу нужны определённые ресурсы. Возможно, с конкретными цифрами их выбить несколько проще 🤷‍♂

И через какое?

20:32пожаловаться #18

AI

Roman Sergeev

И через какое?

Я-то откуда знаю?) Мне этот космос неведом, я просто починяю примус. Все вопросы к @Gergert, он эту тему поднял

20:33пожаловаться #19

Z

в Inhouse это всяко проще, а вот если это ком сок...вот тут реально расстрел