Scaling down Deep Learninghttps://arxiv.org/pdf/2011.14439v2.pdfКогда - 1 декабря 2020
🎄
В чем понтВ любых исследованиях решающее значение играют усилия и сроки, за которые можно сделать открытие и выявить закономерность. Именно по этой причине в генетике огромное количество исследований проводится на Дрозофилле - мухе, которая быстро размножается. Исследования можно производить быстро и дешево, а найденные закономерности затем переносить на человека.
В своей статье автор предлагает такой модельный датасет для изучения глубоких моделей - MNIST-1d, и демонстрирует на нем проверку трудоемких гипотез за считанные часы и даже минуты. Кроме этого он делает ряд новых, фундаментально полезных наблюдений. Код исследований доступен для проверки.
🥂
Описание датасетаКак утверждают авторы, MNIST хорошо бы подошел нам для исследований, но он имеет три заметных недостатка, которые устранены в MNIST-1d:
1) MNIST плохо различает линейные, нелинейные и трансляционно-инвариантные модели. Например, тесты logistic, MLP и CNN дают точность 94, 99+ и 99+%. Это затрудняет измерение вклада пространственных приоров CNN или оценку относительной эффективности различных схем регуляризации.
2) MNIST сслишком большой для модельного набора данных. Каждый входной пример представляет собой 784-мерный вектор, и поэтому требуется нетривиальное количество вычислений для выполнения поиска гиперпараметров или отладки цикла metalearning.
3) MNIST трудно модифицировать. Идеальный набор модельных данных должен быть процедурно сгенерирован, чтобы исследователи могли плавно менять такие параметры, как например фоновый шум и разрешение.
Набор данных MNIST-1d решает эти проблемы: он генерируется процедурно, но все же допускает аналогии с классификацией цифр реального мира. Как и MNIST, цель классификатора состоит в том, чтобы определить, какая цифра присутствует во входных данных. В отличие от MNIST, каждый пример представляет собой одномерную последовательность точек. Чтобы создать пример, автор заполняет, переводит и преобразует набор шаблонных цифр, чтобы получить одномерные последовательности.
🎁
Примеры исследованийС помощью датасета авторы исследуют различные эффекты. Например, deep double descent - когда с увеличением параметров сети лосс сначала падает, затем растет, затем снова падает. Этот эффект сильно влияет на способы и стратегию обучения сетей. Автор пронаблюдал этот эффект, а также вывел новую интересную закономерность - количество параметров модели, на котором лосс после роста начинает падать, в случае использования mse выражается, как K*n, где K- количество выходов сети, а n - количество примеров, а если использовать negative log likelihood, то количество параметров модели, на котором лосс после роста начинает падать, выражается как n. Это демонстрирует преимущество negative log likelihood loss перед mse loss.
На примере MNIST-1d в статье рассматривается, насколько пулинг эффективно работает в зависимости от обьемов выборки. Можно пронаблюдать, как эффект от добавления пулинга снижается с ростом данных.
Также авторы наблюдают на своем датасете “поиск лотерейного билета” и влияние индуктивного байеса в этом процессе - внутри большой сети можно найти такую оптимальную подсеть, которая при обучении даст качество выше оригинальной. Еще в статье можно прочитать о gradient-based metalearning и metalearning an activation function и воспроизвести все эксперименты автора в браузере за несколько часов или даже минут.
🎅
Что в итогеЧем дальше, тем важнее искать новые закономерности и особенности поведения сетей в краевых случаях. Очень важно делать это в сжатые сроки. В своей статье авторы исследоуют около 5 эффектов с помощью своеего датасета и приходят к очень интересным результатам.
Я уверена, что применение подобных модельных датасетов и глубокое изучение сетей станет common practice очень скоро и разнообразит интенсивный фон инженерных статей.