а какая разница, какие результаты? проверялось, что выборки сбалансированы по числу переходных/непереходных примеров? а то просто от балды можно сказать, что тут хуже, потому что англ, а не потому что примеры заковыристей
перепроверил случаи про падеж походу mystem действительно не делает предположений, какой падеж более вероятен, а просто перечисляет все возможные в каком-то своем захардкоженном порядке (от дательного до именительного), так что м.б. можно будет исправить эту проблему вычеркиванием из обучения неоднозначных случаев
не нужно балансировать выборки по числу переходных и непереходных итоговая программа есть генератор, который штопает заголовки один за другим, и из них взяты подряд N штук, из которых 50% являются определенной ошибкой, которую значит если исправить, то кол-во ошибок уменьшится в два раза
переходность - это частный случай, там еще миллион и одно слабое место может быть, о которых мы не подумали (как те же наречия, о которых уже выше говорилось)
в том, есть ли какая-то тулза, которая бы давала больше инфы, чем, например, приведенные выше tree-tagger и textblob, потому что на примере первая выдает мало, а вторая ошиблась, а mystem выдает много и правильно
Ладно, а есть ли библиотеки чтобы просклонять 'федеральный конституционный закон'? т.е. просклонять "закон", чтобы остальные прилагательные были согласованными?
а если "поиграться" - то тогда нужно артиклз по ИИ-конфам 10летней давности поднять - там все описано, про 27 семантических ролей русккого языка и эксперименты. Нахрапом из г-на и песка и глины можо собрать только участкового, согласно поговорке. Это правда