> Подсказали, что можно стопнуть реплику (мастер один нагрузку легко тянет), включить там чексуммы
Кто подсказал-то (такое я тоже слышал, и с виду оно может и работать, но не делал)? ;)
Я к чему — может, у них спросить, как прошло / были ли проблемы?
Далее:
1. Стопнуть реплику (мастер один нагрузку легко тянет), включить там чексуммы
2. Сделать свитчовер
Вот где-то перед этим шагом реплика, по идее, должна быть "докачена" WAL-ами с primary, нет?
3. включить чексуммы на другом сервере,
4. сделать свитчовер ещё раз
И перед этим — тоже, см. выше.
> реплика мастером стала, а вот прежний мастер к ней подцепить репликой не удалось
timelines разошлись, наверное. Тогда же pg_rewind ещё не было, вроде?
> Сейчас, если свитчовер также не удастся, нам придётся дважды тянуть полтора терабайта по сети
Не обязательно. Как раз тут можно подумать, как правильно применить pg_rewind, по идее.
> где соломки подстелить.
А Вы на "урезанных" тестовых кластерах (к примеру, с теми же схемами и почти без данных; или вообще на тестовых базах) потренируйтесь. :)
> где упоминается ещё "убедиться что валы догнались" (как?)
См.
https://www.postgresql.org/docs/current/app-pgcontroldata.html , по идее.
> и настройка recovery.conf (которого у нас нет)
Это потому, что у Вас v12.
> Или надо что-то ещё проверить / не забыть / и т.п?
Почитали бы Вы официальную документацию, для начала. ;)