Телеграмм чат группы natural_language

А если менять последовательности цифр и букв? Интересно, усложняется ли задача, или же просто вопрос времени? Типо никакой разницы между обычным языком?

источник

22:39пожаловаться #6

SS

Sergey Shulga in Natural Language Processing

Rinat Valiullov

Интересно, а сложнее ли для машины становится распознавать подобные тексты?🤔

Не очень сложная задача на определенном домене. Только нужны железки.

источник

22:48пожаловаться #7

RV

Rinat Valiullov in Natural Language Processing

Sergey Shulga

Не очень сложная задача на определенном домене. Только нужны железки.

А что насчёт sentiment analysis?

источник

22:52пожаловаться #8

SS

Sergey Shulga in Natural Language Processing

Rinat Valiullov

А что насчёт sentiment analysis?

А это уже другая задача)

источник

23:09пожаловаться #9

RV

Rinat Valiullov in Natural Language Processing

Sergey Shulga

А это уже другая задача)

и какие мысли тогда по этой задаче?

источник

23:10пожаловаться #10

AF

Alexander Fedorenko in Natural Language Processing

Rinat Valiullov

А если менять последовательности цифр и букв? Интересно, усложняется ли задача, или же просто вопрос времени? Типо никакой разницы между обычным языком?

В этом варианте мы видим текст на русском языке, но с измененным алфавитом. Некоторые буквы были замененны цифрами.

источник

23:13пожаловаться #11

V

Vlad in Natural Language Processing

Rinat Valiullov

А что насчёт sentiment analysis?

Я делал как-то давно, около года назад, нейронку из двух слоёв lstm и word2vec, обучал на этом корпусе http://study.mokoron.com/ предварительно его вычистивши от мусора, получилась точность около 76% и вроде как по сей день нормально работает)

источник

23:15пожаловаться #12

RV

Rinat Valiullov in Natural Language Processing

Vlad

Я делал как-то давно, около года назад, нейронку из двух слоёв lstm и word2vec, обучал на этом корпусе http://study.mokoron.com/ предварительно его вычистивши от мусора, получилась точность около 76% и вроде как по сей день нормально работает)

класс 👍🏼

источник

23:19пожаловаться #13

V

Vlad in Natural Language Processing

Если надумаете повторить, могу дать точную конфигурацию сети и прочие параметры)

источник

23:19пожаловаться #14

YB

Yuri Baburov in Natural Language Processing

Vlad

Если надумаете повторить, могу дать точную конфигурацию сети и прочие параметры)

лучше если сможешь дать препроцессинг, я в spacy вкорячу

источник

23:22пожаловаться #15

V

Vlad in Natural Language Processing

Да, без проблем, в лс только)

источник

23:23пожаловаться #16

YB

Yuri Baburov in Natural Language Processing

Vlad

Да, без проблем, в лс только)

ага, супер

источник

23:23пожаловаться #17

КЧ

Квадрат Чёрный in Natural Language Processing

Rinat Valiullov

А если менять последовательности цифр и букв? Интересно, усложняется ли задача, или же просто вопрос времени? Типо никакой разницы между обычным языком?

Смотря как менять. Если вы сделаете генератор который заменяет с шумом (рандомизировано), то должна будет увеличться неоднозначность (предельное качество обучения по системе текстов с шумом будет ниже, чем у исходного датасета).

Если же вы детерминистически делаете замены (причем подобрав замены таким образом что не создается новая неоднозначность распознавания), то почти наверное предельное качество и характер обучения останутся такими же.

источник

23:49пожаловаться #18

D(

David (ddale) Dale in Natural Language Processing

Rinat Valiullov

А если менять последовательности цифр и букв? Интересно, усложняется ли задача, или же просто вопрос времени? Типо никакой разницы между обычным языком?

На кэгле была как-то задачка, где надо было классифицировать тексты, зашифрованные каким-то криптографическим шифром. Определять автора, кажется. И ничего, классифицировали, не понимая ни слова)

источник

23:51пожаловаться #19

2019 December 18

ck

cnstntn kndrtv in Natural Language Processing

Rinat Valiullov

Интересно, а сложнее ли для машины становится распознавать подобные тексты?🤔

Теоретически для понимания слова достаточно снять неоднозначность только с согласных. CNN по символам наверное потом.

источник

11:42пожаловаться #20