Size: a a a

Обсуждения техдирские

2019 August 30

ЮВ

Юра В in Обсуждения техдирские
Модельный пример - посреди рабочей смены обнаруживается, что печать накладных на отгрузку ведется некорректно, не из тех полей.  Останавливать отгрузку, пока не будет сделано "как надо"?
- описать change request
- поправить документацию
- создать ветку
- исправить в ней
- собрать конфигурацию
- протестировать на стейдже
- протестировать на предпроде регрессом
- выкатиться?

Или все-таки катнуть хотфикс прям на прод?
источник

Г

Георгий in Обсуждения техдирские
Phil Delgyado
О, а расскажи, как проверять пиковую производительность сетевого оборудования в сложных конфигурациях без копии этого оборудования и всей конфигурации?
Да хотя бы и производительность распредленной базы при случайных сбоях на пиковых нагрузках под нестандартным профилем нагрзуки?
Мне рассказывать о том, что деплой должен быть не на 100% клиентов сразу, рассказывать о том, что если что-то критическое сдохло на проде, то надо СНАЧАЛА сделать откат, а потом спокойно искать проблему, вот про это рассказывать надо? Серьёзно ?
источник

PD

Phil Delgyado in Обсуждения техдирские
Это - только про тип ошибок, вызванных деплоем новых версий.
источник

AS

Andrey Shetukhin in Обсуждения техдирские
Георгий
Мне рассказывать о том, что деплой должен быть не на 100% клиентов сразу, рассказывать о том, что если что-то критическое сдохло на проде, то надо СНАЧАЛА сделать откат, а потом спокойно искать проблему, вот про это рассказывать надо? Серьёзно ?
Так, вот раскатали на 99% и всё ок. Раскатали на 100% - и не ок. Откатили до 99% - всё ок. Что дальше делаем?
источник

Г

Георгий in Обсуждения техдирские
Юра В
Модельный пример - посреди рабочей смены обнаруживается, что печать накладных на отгрузку ведется некорректно, не из тех полей.  Останавливать отгрузку, пока не будет сделано "как надо"?
- описать change request
- поправить документацию
- создать ветку
- исправить в ней
- собрать конфигурацию
- протестировать на стейдже
- протестировать на предпроде регрессом
- выкатиться?

Или все-таки катнуть хотфикс прям на прод?
Катнуть хотфикс на прод, через час понять, что проблема осталась, катнуть его снова, выяснить что печать ведётся из нужных полей, но сдох другой функционал, катнуть хотфикс....
источник

PD

Phil Delgyado in Обсуждения техдирские
А есть еще ошибки вида "заглючил роутер" или "заглючил куратор" или "заглючила 3d party app" или просто "марс в водолее и пришло в 10 раз больше пользователей на хитром редком кейсе"
источник

PD

Phil Delgyado in Обсуждения техдирские
Я вот уже давно у себя не помню ошибок при выкладке.
Но простои все еще у меня в проектах возникают - по разным причинам (
источник

ЮВ

Юра В in Обсуждения техдирские
Георгий
Катнуть хотфикс на прод, через час понять, что проблема осталась, катнуть его снова, выяснить что печать ведётся из нужных полей, но сдох другой функционал, катнуть хотфикс....
понятно.
я тут как раз видел тематическую картинку
источник

AS

Andrey Shetukhin in Обсуждения техдирские
Phil Delgyado
А есть еще ошибки вида "заглючил роутер" или "заглючил куратор" или "заглючила 3d party app" или просто "марс в водолее и пришло в 10 раз больше пользователей на хитром редком кейсе"
Или температура на трансивере оптики повысилась и он вместо 3% ретрансмитов стал делать 15% и все реалтайм-сервисы сдохли. При этом как только они сдохли - так всё тут же стало хорошо работать, кроме этих сервисов.

Какие потоколы помогут этого избежать? И самое главное - как?
источник

ЮВ

Юра В in Обсуждения техдирские
источник

ЮВ

Юра В in Обсуждения техдирские
от так от!
источник

ЮВ

Юра В in Обсуждения техдирские
.. после такого заявления до вылета с п е ц и а л и с т а на мороз осталось 3.. 2.. 1
источник

СХ

Старый Хрыч in Обсуждения техдирские
Юра В
.. после такого заявления до вылета с п е ц и а л и с т а на мороз осталось 3.. 2.. 1
всё равно виновным будет девопс и уборщица
источник

СХ

Старый Хрыч in Обсуждения техдирские
чтобы не случилось
источник

AS

Andrey Shetukhin in Обсуждения техдирские
Просто мир эльфов и пони - немного не такой, как наш. Там можно поставить две копии прода, а у нас - нет.  Там можно написать код, который будет 100% покрыт тестами, а у нас  даже для программы Space Shuttle - нет.
источник

ЮВ

Юра В in Обсуждения техдирские
это конечно же не так
источник

Г

Георгий in Обсуждения техдирские
Юра В
.. после такого заявления до вылета с п е ц и а л и с т а на мороз осталось 3.. 2.. 1
Ох...тоесть нет, ВОСХИТИТЕЛЬНЫЕ истории, я хотел сказать.
Какое описание из мелкого стартапа. В этнтерпрайзе слегка не так
источник

Г

Георгий in Обсуждения техдирские
Есть руководство и его задача как раз такие вещи думать. А девопс/разраб вася должен делать что скажут, ответственность не на нем
источник

R

Ruslan in Обсуждения техдирские
Andrey Shetukhin
А в вашем идеальном мире реалтайм логи - они как смотрятся? А включение-отключение отладки? А анализ coredump, если такой случается именно на проде и именно с этим пользователем?

Вот в моём мире, где сервера в кластере клонированы, обязательно есть субкластер, где я, или программист, или девопс, или даже представитель вендора может под контролем включить режим отладки, предварительно перетащив туда часть аудитории или вообще одного пользователя для A/B теста.

И там уже смотреть, почему вот сию секунду там что-то ломается. И при этом мне не надо заниматься игрой в безопасность, устраивая правила типа "доступ в БД - только у DBA" или "root только у админа". Потому, что ДБА не обязан знать все SQL-запросы в системе, их легко может быть 10000 штук, а админ - на уровне разработчика разбираться в коде на go, c, c++, node и python. Потому, что мы живём в реальном мире, тут нельзя всё написать на уловном malbolge и обучить всех одинаково.
Логи смотрятся как обычные текстовые файлы, не очень понял при чем тут рут. Отладку включить опять же не проблема - запускаете ещё один процесс в отладочном режиме и туда балансируется трафик. Коредамп делать не приходилось, но его может сделать админ, а так же админ может выдать права, если это нужно зачем-то прямо сейчас. Вы же не каждый день такие вещи на поле делаете.
источник

НК

Никита Конин in Обсуждения техдирские
Георгий
Даже в Почта банке так. А у вас на плюке может быть как угодно
А потом у Почта банка есть 2 мобильных приложения, два личных кабинета и пользоваться приходится всем одновременно, потому что иначе никак не обойти набор багов.
источник