закинули на соседний проект на пару дней, разобрать багу. Бага - не проставляется одна штука, которая должна получаться из внешней интеграции.
Архитектура - внешний источник пушит данные, один сервис складирует в монгу as is, другой монгу выгребает в MSSQL-монстра на хранимках, третий ходит по MSSQL, ищет, не подогнали ли чего нового и обновляет, среди прочего, нужное поле.
Так вот. Оказалось, что по проблемным записям из внешнего источника в MSSQL ничего не приходило, хотя должно было (судя по отсутствию соотв. записей). Полез в логи перегружающего сервиса, куча записей падает на десериализации в byte значения, большего чем 255. Значения поля TryCount.
Так вот, у пачки записей это поле стоит в 256... с 27 июня. При этом - интервал ретрая - 3600 МИНУТ, т.е. до 256 попыток сервис полз практически два года.
Мониторинг? Обсёрвабилити?