Это какие-то программизмы
Языковые модели выбирают продолжение текста случайно. Языковая модель в составе RL агента имеет дополнительную информацию для выбора продолжения текста и возможность связать этот текст с действиями и оценкой полезности этих действий. То есть может вытащить из языковой модели план действий, если он там есть. В GPT-2 что-то есть.