А если эти токены, условно, набор английских букв?
Кейс такой: есть русский текст, в котором встречаются смайлы в виде набора английских букв (не всегда есть семантика). Адекватными ли получатся такие эмбединги для всего предложения / слова?
Корпус РуБерта - вики + новости, мультиязычного - вики. Встречаемость иностранных слов и их характер оттуда. Наверное, чаще всего это названия компаний. Если это смайлы, то берите conversational RuBERT, там обучающая выборка полностью на неформальной лексике типа пикабу, d3, и т.д. Там, вполне вероятно, будут нестандартные смайлы. А так, если что-то специфичное совсем в лексике, я бы начинал с простого: tf-idf -> fasttext -> ulmfit