RS
GPT2Tokenizer в Hugging face Transformers использует не очень интуитивные аргументы по умолчанию для спец токенов: unk_token =
<|endoftext|>, bos_token = <|endoftext|>, eos_token = <|endoftext|>. 1. Почему они все одинаковые?
2. Если запустить GPT2Tokenizer.from_pretrained() с другими значениями для unk_token & bos_token, то насколько претренированная модель сможет под это подстроиться во время файн-тьюнинга?
Ссылка на доку https://huggingface.co/transformers/model_doc/gpt2.html?highlight=gpt2tokenizer#gpt2tokenizer

