Прочитал. Простите за нубский вопрос - в чем сущностный смысл разделения картинки на патчи по сетке? Со словами в NLP понятно: слово - семантическая единица языка и имеет самостоятельное значение. Поэтому интуитивно понятно, зачем слово = эмбеддинг.
Но ведь на картинке объект "сосмыслом" может быть разбит на несколько ячеек, и наоборот - одна ячейка может содержать несколько объектов. Если это чисто техническая история, то по идее тогда шаг биения сетки (4 на 4 или 1024 на 1024) должен иметь драматическое значение, это так?
Ну, насколько я помню, соль сверточных сетей была, в итоге, на последних слоях сети где формировались фичи представляющие собой по сути усредненные куски изображений, "сохранённые" в весах сети. А тут, судя по всему, разбивая изображение это делают сразу. Если не прав - сильно не пинайте))