How to Fine-Tune BERT for Text Classification?Sun et al. Fudan University
arxiv.org/pdf/1905.05583.pdfВ статье пытаются смешать BERT и ULMfit. Получается довольно средне, но в конце концов они обходят ULMfit на почти всех датасетах (хоть и не сильно). В статье много хаков и мало убедительных ablation studies, но это best we have. На удивление мало статей, рассказывающих о том, как правильно применять BERT.