На днях Netflix выложил в OpenSource свою систему автоматического исправления неисправностей под названием Winston. По сути данная система получает событие, например alert от мониторинга и на базе некоторых заранее определенных правил (runbook'ов) проверяет не является ли оно false-positive, собирает дополнительную информацию и пытается его исправить. Подробности в их корпоратичном блоге: http://techblog.netflix.com/2016/08/introducing-winston-event-driven.html