Посыл в том, что классическая обработка текстов вообще забивает на структуру текста.
Всякие RNN сохраняют контекст но не понимают какое слово главное и вообще плавно забывают начало.
Поэтому ввели атеншн который находит и запоминает ключевые слова. Ну потом его запихали как-то в трансформер еще