Scaling Laws for Neural Language Models
Kaplan, McCandlish et al. [OpenAI]
arxiv.org/abs/2001.08361Интересный пример “физического” подхода к анализу нейросетей: проведём много экспериментов и установим законы зависимостей.
Все результаты в короткий ltdr не уложишь - советую почитать статью. Из необычных результатов:
1. Если вы ограниченны в compute и хотите натренировать самую лучшую LM, выгоднее взять очень большую модель и остановить тренировку очень рано (задолго до сходимости), чем взять модель поменьше и тренировать до конца
1. По compute, размеру датасета и числу параметров test loss скейлится как степенная функциия:
a*x^-k
(i.e. power law)
1. Увеличив модель в ~8 раз, увеличьте датасет в ~5 раз, чтобы не переобучиться
1. Сингулярности стоит ожидать, когда размер моделей будет в 10 000 раз больше текущих, так что продолжаем упарываться 🙃
За ссылку на статью спасибо
@Cookie_thief