Мне реально интересно кста
Мне тоже, я до конца так и не понял. Я так понимаю сначала инициализируется эмбеддинг случайными весами. А потом в процессе обучения предсказания следующего слова получаем уже хорошие эмбединги.
И в чем отличие от полносвязного слоя... хз короче