Size: a a a

Natural Language Processing

2019 December 17

КЧ

Квадрат Чёрный in Natural Language Processing
mel kaye
ксти про ud, что сейчас есть хорошого для ру/англ языков?
У дип павлов недавно был релиз модельки:
http://docs.deeppavlov.ai/en/master/features/models/syntaxparser.html#joint-model-usage
источник

m

mel kaye in Natural Language Processing
возился с ней в свободное время на работе, так и не встала
источник

КЧ

Квадрат Чёрный in Natural Language Processing
mel kaye
возился с ней в свободное время на работе, так и не встала
а что случилось?
источник

m

mel kaye in Natural Language Processing
но то был колаб. доберусь до локального юпитера думаю встанет
источник

m

mel kaye in Natural Language Processing
Квадрат Чёрный
а что случилось?
зависимости не подтягивает
источник

RV

Rinat Valiullov in Natural Language Processing
Rinat Valiullov
Интересно, а сложнее ли для машины становится распознавать подобные тексты?🤔
А если менять последовательности цифр и букв? Интересно, усложняется ли задача, или же просто вопрос времени? Типо никакой разницы между обычным языком?
источник

SS

Sergey Shulga in Natural Language Processing
Rinat Valiullov
Интересно, а сложнее ли для машины становится распознавать подобные тексты?🤔
Не очень сложная задача на определенном домене. Только нужны железки.
источник

RV

Rinat Valiullov in Natural Language Processing
Sergey Shulga
Не очень сложная задача на определенном домене. Только нужны железки.
А что насчёт sentiment analysis?
источник

SS

Sergey Shulga in Natural Language Processing
Rinat Valiullov
А что насчёт sentiment analysis?
А это уже другая задача)
источник

RV

Rinat Valiullov in Natural Language Processing
Sergey Shulga
А это уже другая задача)
и какие мысли тогда по этой задаче?
источник

AF

Alexander Fedorenko in Natural Language Processing
Rinat Valiullov
А если менять последовательности цифр и букв? Интересно, усложняется ли задача, или же просто вопрос времени? Типо никакой разницы между обычным языком?
В этом варианте мы видим текст на русском языке, но с измененным алфавитом. Некоторые буквы были замененны цифрами.
источник

V

Vlad in Natural Language Processing
Rinat Valiullov
А что насчёт sentiment analysis?
Я делал как-то давно, около года назад, нейронку из двух слоёв lstm и word2vec, обучал на этом корпусе http://study.mokoron.com/ предварительно его вычистивши от мусора, получилась точность около 76% и вроде как по сей день нормально работает)
источник

RV

Rinat Valiullov in Natural Language Processing
Vlad
Я делал как-то давно, около года назад, нейронку из двух слоёв lstm и word2vec, обучал на этом корпусе http://study.mokoron.com/ предварительно его вычистивши от мусора, получилась точность около 76% и вроде как по сей день нормально работает)
класс 👍🏼
источник

V

Vlad in Natural Language Processing
Если надумаете повторить, могу дать точную конфигурацию сети и прочие параметры)
источник

YB

Yuri Baburov in Natural Language Processing
Vlad
Если надумаете повторить, могу дать точную конфигурацию сети и прочие параметры)
лучше если сможешь дать препроцессинг, я в spacy вкорячу
источник

V

Vlad in Natural Language Processing
Да, без проблем, в лс только)
источник

YB

Yuri Baburov in Natural Language Processing
Vlad
Да, без проблем, в лс только)
ага, супер
источник

КЧ

Квадрат Чёрный in Natural Language Processing
Rinat Valiullov
А если менять последовательности цифр и букв? Интересно, усложняется ли задача, или же просто вопрос времени? Типо никакой разницы между обычным языком?
Смотря как менять. Если вы сделаете генератор который заменяет с шумом (рандомизировано), то должна будет увеличться неоднозначность (предельное качество обучения по системе текстов с шумом будет ниже, чем у исходного датасета).

Если же вы детерминистически делаете замены (причем подобрав замены таким образом что не создается новая неоднозначность распознавания), то почти наверное предельное качество и характер обучения останутся такими же.
источник

D(

David (ddale) Dale in Natural Language Processing
Rinat Valiullov
А если менять последовательности цифр и букв? Интересно, усложняется ли задача, или же просто вопрос времени? Типо никакой разницы между обычным языком?
На кэгле была как-то задачка, где надо было классифицировать тексты, зашифрованные каким-то криптографическим шифром. Определять автора, кажется. И ничего, классифицировали, не понимая ни слова)
источник
2019 December 18

ck

cnstntn kndrtv in Natural Language Processing
Rinat Valiullov
Интересно, а сложнее ли для машины становится распознавать подобные тексты?🤔
Теоретически для понимания слова достаточно снять неоднозначность только с согласных. CNN по символам наверное потом.
источник