Size: a a a

Natural Language Processing

2021 August 16

ИГ

Ильнур Гарипов... in Natural Language Processing
вроде совпадают
источник

MK

Max Kuznetsov in Natural Language Processing
Круто, в _raw  есть все что нужно 👍
источник

ИГ

Ильнур Гарипов... in Natural Language Processing
если сможешь извлечь спан факта "fact" типа
rule(
 name.interpretation(fact.name),
 surname, # здесь не должно быть interpretation
).interpretation(fact)

напиши пожалуйста как)
источник

AG

Alexander Gambashidz... in Natural Language Processing
всем привет, кто как работает с незнакомыми словами в берте ? я знаю про работу токенайзера, но хочется узнать, какие подходы могут сделать качество еще лучше (мб заменять неизвестные слова на какой-то существующий токен ?)
источник

DD

David Dale in Natural Language Processing
1) дефолтный вариант: ничего особого не делать, положиться на токенайзер.
2) вариант для зануд: если домен/диалект сильно специфичный незнакомых слов очень уж много, дополнить словарь токенайзера и нейронки ими, и дообучить берт в self-supervised режиме на достаточно большом корпусе. При таком дообучении можно заморозить все слои, кроме эмбеддингов (так будет сильно быстрее). Потом файнтюниться как обычно на конечную задачу.
3) вариант для гиков: использовать модели вообще без словаря, типа ByT5.
источник

BS

Bogdan Salyp in Natural Language Processing
Для неизвестных слов по умолчанию уже есть unk токен, если вы об этом
Можно добавить свои через add_special_token например (это все с huggingface)
источник

AG

Alexander Gambashidz... in Natural Language Processing
Спасибо, второй способ звучит как то, что можно попробовать)))
источник

d

dePuff in Natural Language Processing
Этот UNK кто-то живьём видел кроме как в самописном  предсказании, в случае Берта?
источник

DD

David Dale in Natural Language Processing
Только на символах из редких алфавитов
источник

d

dePuff in Natural Language Processing
О. Точно. Логично.
источник

BS

Bogdan Salyp in Natural Language Processing
Да, это наверное немного не то
Неизвестное слово просто по буквам разобьет
источник

BS

Bogdan Salyp in Natural Language Processing
да, часто
но это просто странности моделей
источник

BS

Bogdan Salyp in Natural Language Processing
источник

BS

Bogdan Salyp in Natural Language Processing
Потому что eos/bos/sep/unk - это во многих моделях один и тот же токен по умолчанию
источник

d

dePuff in Natural Language Processing
А расскажите почему в Trainer от HF по умолчанию линейный шедулер, который понижает lr до нуля к концу заданного количества эпох.

Для меня это контринтуитивная вещь при условии, не избыточного количества примеров для обучения и планов больше одной эпохи этим заниматься
источник

DD

David Dale in Natural Language Processing
Могу предположить, что такой шедулер позволяет меньше париться с подбором learning rate: не страшно выставить слишком большой начальный шаг, т.к. к концу обучения он всё равно уменьшится достаточно, чтобы оптимизация сошлась.

Но статей с экспериментальным подтверждением этого я не видел (и не искал, впрочем). И мне тоже неочевидно, почему затухание именно линейное.
источник
2021 August 17

K

Kutuz4 in Natural Language Processing
Здравствуйте. А кто-то выкачивал википедтю? Или может ссылка есть на архив удобный
источник

ID

Ivan Dolgov in Natural Language Processing
источник

ID

Ivan Dolgov in Natural Language Processing
Может ссылка не совсем туда ведёт, но вот сайт dumps wikipedia это то, что тебе нужно
источник

VM

Victor Maslov in Natural Language Processing
ссылку на "удобный архив" не имею, но  есть еще вот такая вещь https://archive.org/details/wikiteam
источник