Чтобы протестировать стабильность, надо определиться с метрикой, что будет отслеживаться. Например время отклика операции и утилизация ресурсов CPU на сервере приложений при стабильной нагрузке. Не обязательно большой. Лучше малой. Но стабильной - 1 сценарий в сек.
А чтобы надёжность, то нужна система, в которой что-то может отказать. Например, в ней должен быть nginx, два wordpress backend, один mysql. И вы выключите один wordpress