Я даже и близко не Тимур, но из личного опыта рискну предположить, что деградация логов - это:
1⃣ количественная деградация: раньше из подсети приходила информация о 500 парах "хост-продукт", сейчас приходит 510. Причём среди них есть 40 новых пар и не хватает 30 старых. Отсюда вопросы:
(1А) 30 отвалившихся - это проблемные хосты, которые надо чинить, или планово выведенные из сети? Или это сотрудник, который уехал в командировку в Восточную Гвинею на полгода?
(1Б) часть хостов логи присылает, но не все (скажем, ОС логи присылает, а установленная на том же хосте БД - нет). Это что-то отвалилось или просто БД (временно) стопнули?
(1В) 40 новых - это вроде как и хорошо, а вроде как и странно. Особенно если задаться вопросом, а полные ли логи мы с них получаем (например, был сервер с БД, который исправно присылал логи ОС, логи БД и логи СЗИ; потом его убрали и поставили другой сервер с БД, который присылает логи ОС, а вот логи БД не присылает - в общем, в эту сторону лучше даже не думать, ибо это из области rouge assets management, в которой можно спиться окончательно).
2⃣ Качественная деградация: логи приходят, а вот часть важного содержимого в них отсутствует:
(2А) Так происходит в результате применения новых политик: что-то поменяли в GPO или контейнер другой сделали - хоба, пропала часть событий. Через полгода заметим, если повезёт.
(2Б) Так происходит в результате обновления софта на хосте. Дальше либо формат логов меняется и парсер их неправильно парсит, либо происходят ещё всякие чудеса. (Из личной практики - после обновления цитрикса стандартный парсер СИЕМ просто перестал парсить одно из ключевых полей события подключения по ВПН. Хотя формат лога такой же, только версия изменилась. И остальные события и поля цитрикса парсятся нормально).
(2В) Так происходит, если мы что-то поменяли у себя: обновили коннектор, СИЕМ, лог-сервер, скрипт. Принцип такой же, как и в предыдущем пункте.
При этом исправление подобных проблем - та ещё расстрельная задача, потому что:
- причин масса - от изменения политик МЭ / маршрутизатора (и нарушения сетевой связности) до изменения групповых / локальных политик журналирования, настроек СЗИ, обновлений ПО, системы, тех же СЗИ, СИЕМ и так далее, до отключения хоста или ПО - постоянного или временного, и так далее, и тому подобное. Жизнь всегда что-то новое подкидывает.
- проблемы часто носят очень локализованный характер и незаметны в общем потоке событий. Это проявляется как в количестве хостов (имеем не "у меня подсеть отвалилась", а "два хоста из ста внезапно замолчали), так и в самих логах (имеем не "антивирус не присылает логи", а "события антивируса приходят, но почему-то только с файлового модуля" или "события есть, но только удаления").
- деградация происходит постоянно, она непобедима. Отслеживание её и борьба с ней - монотонная и неблагодарная задача, которая никогда не решается полностью. Заниматься ей обычно никто не хочет.
- отследить отвалившийся хост легко; сложно понять, что делать дальше. Стандартный путь - заявка в IT, чтобы разобрались. Заявок таких получается много, решаются они долго (антивирус не работает -> просим переустановить -> не работает -> дальше либо перезалить машину, что долго, либо долго и муторно разбираться в причинах, что ещё дольше).
@Gergert, скажите, получилось ли угадать хоть какой-то из пунктов 😀