Скрипты имеют свойство ломаться, если отвернуть от них взгляд.
Ну вот, понимание как делать робастые скрипты приходит не сразу. Сейчас, например мы пришли к такому алгоритму:
Прописать в zfs castom properties uuid машинки и номер диска и его тип хранилища (у нас есть hdd, ssd и optane nvme) и поставить hold на снимок.
Бекапный сервер вытягивает снепшоты предварительно сопоставляя по uuid к чему он (машинка могла переехать на другой гипервизор с посощью zfs send) и убедившись в том что бекап сделать, снимает hold.
Я оставляю за скобками логику продолжения бекапа при обрыве связи и передачу группы снимков. Оказалось что группой передавать быстрее чем по одному, причем намного.
Постепенно алгоритм выкристолизовывается все более правильный и учитвающий все новые нюансы.
Не виду причин к тому, чтобы скрипты ломались вечно.