1) дефолтный вариант: ничего особого не делать, положиться на токенайзер.
2) вариант для зануд: если домен/диалект сильно специфичный незнакомых слов очень уж много, дополнить словарь токенайзера и нейронки ими, и дообучить берт в self-supervised режиме на достаточно большом корпусе. При таком дообучении можно заморозить все слои, кроме эмбеддингов (так будет сильно быстрее). Потом файнтюниться как обычно на конечную задачу.
3) вариант для гиков: использовать модели вообще без словаря, типа ByT5.