Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 August 16

ИГ

Ильнур Гарипов... in Natural Language Processing

вроде совпадают

источник

18:14пожаловаться #1

Max Kuznetsov in Natural Language Processing

Круто, в _raw есть все что нужно 👍

источник

18:22пожаловаться #2

ИГ

Ильнур Гарипов... in Natural Language Processing

если сможешь извлечь спан факта "fact" типа

rule(
  name.interpretation(fact.name),
  surname, # здесь не должно быть interpretation
).interpretation(fact)

напиши пожалуйста как)

источник

18:26пожаловаться #3

Alexander Gambashidz... in Natural Language Processing

всем привет, кто как работает с незнакомыми словами в берте ? я знаю про работу токенайзера, но хочется узнать, какие подходы могут сделать качество еще лучше (мб заменять неизвестные слова на какой-то существующий токен ?)

источник

20:18пожаловаться #4

David Dale in Natural Language Processing

1) дефолтный вариант: ничего особого не делать, положиться на токенайзер.
2) вариант для зануд: если домен/диалект сильно специфичный незнакомых слов очень уж много, дополнить словарь токенайзера и нейронки ими, и дообучить берт в self-supervised режиме на достаточно большом корпусе. При таком дообучении можно заморозить все слои, кроме эмбеддингов (так будет сильно быстрее). Потом файнтюниться как обычно на конечную задачу.
3) вариант для гиков: использовать модели вообще без словаря, типа ByT5.

источник

20:23пожаловаться #5

Bogdan Salyp in Natural Language Processing

Для неизвестных слов по умолчанию уже есть unk токен, если вы об этом
Можно добавить свои через add_special_token например (это все с huggingface)

источник

20:27пожаловаться #6

Alexander Gambashidz... in Natural Language Processing

Спасибо, второй способ звучит как то, что можно попробовать)))

источник

20:32пожаловаться #7

dePuff in Natural Language Processing

Этот UNK кто-то живьём видел кроме как в самописном предсказании, в случае Берта?

источник

20:32пожаловаться #8

David Dale in Natural Language Processing

Только на символах из редких алфавитов

источник

20:34пожаловаться #9

dePuff in Natural Language Processing

О. Точно. Логично.

источник

20:34пожаловаться #10

Bogdan Salyp in Natural Language Processing

Да, это наверное немного не то
Неизвестное слово просто по буквам разобьет

источник

20:35пожаловаться #11

Bogdan Salyp in Natural Language Processing

да, часто
но это просто странности моделей

источник

20:43пожаловаться #12

Bogdan Salyp in Natural Language Processing

источник

20:44пожаловаться #13

Bogdan Salyp in Natural Language Processing

Потому что eos/bos/sep/unk - это во многих моделях один и тот же токен по умолчанию

источник

20:44пожаловаться #14

dePuff in Natural Language Processing

А расскажите почему в Trainer от HF по умолчанию линейный шедулер, который понижает lr до нуля к концу заданного количества эпох.

Для меня это контринтуитивная вещь при условии, не избыточного количества примеров для обучения и планов больше одной эпохи этим заниматься

источник

20:51пожаловаться #15

David Dale in Natural Language Processing

Могу предположить, что такой шедулер позволяет меньше париться с подбором learning rate: не страшно выставить слишком большой начальный шаг, т.к. к концу обучения он всё равно уменьшится достаточно, чтобы оптимизация сошлась.

Но статей с экспериментальным подтверждением этого я не видел (и не искал, впрочем). И мне тоже неочевидно, почему затухание именно линейное.

источник

21:01пожаловаться #16

2021 August 17

Kutuz4 in Natural Language Processing

Здравствуйте. А кто-то выкачивал википедтю? Или может ссылка есть на архив удобный

источник

04:29пожаловаться #17

Ivan Dolgov in Natural Language Processing

https://dumps.wikimedia.org/backup-index.html

источник

07:26пожаловаться #18

Ivan Dolgov in Natural Language Processing