
Lan et al. Google
arxiv.org/abs/1909.11942
Гугл исследует, как увеличение ширины трансформера влияет на вероятность получить SOTA. Оказывается, что если сделать это правильным обазом, то весьма положительно.
Ключевые идеи:
1. зашарить параметры между всеми слоями трансформера, как в Universal Transformer (по сути просто итерируемся по одному слою)
2. чтобы при увеличении hidden не рос размер эмбеддинг-матрицы, проецировать эмбеддинги не напрямую, а через промежуточное пространство
3. вместо next sentence prediction, где негативные примеры семплируются из всего датасета, брать два последовательно идущих предложения и с некоторой вероятностью менять их местами; предсказывать в каком порядке они должны идти
4. увеличить размер hidden в 4 раза, получаем SOTA
Подробнее про 2
было:
emb = Embedding(vocab=30K, emb_size=H)
стало:
emb = Embedding(vocab=30K, emb_size=E)(x)
emb = Linear(E, H)(emb)
если H >> E, то это позволяет сократить число параметров и ускорить вычисления
Другие подробности:
1. Использовали умное маскирование - с некоторой вероятностью маскировали до 3 последовательно идущих токенов
1. LAMB optimizer
1. ALBERT, достигающий сопоставимых с BERT Large результатов медленнее BERT Large