
А сегодня товарищ подбросил интересную ссылку https://github.com/FredGlozman/RussianDialogDatasetGenerator, тут господин Глозман, подозрительно похожий на одного персонажа из Гриффинов, написал скрипт сборки датасета, для машинного обучения русскому языку. За источник для сборки данных были взяты такие ресурсы русской народной мудрости как:
* otvet.i.ua
* rususa.com
На первом ресурсi понятно шо видбуваеться, а на втором сидит весьма специфический контингент из евреев, украинцев и разного рода иных нацменшинств, которые день и ночь пытаются свалить из ненавистной СНГашки. Ну и датасет у него заполнился чем-то типа такого:
"Дело было в далеких 70х. Мы уже были в Италии когда в Остию приехала очередная порция иммигрантов с Совка. Какой та "Мойша" начал активно пытаца продать чемодан зеленки. Выяснилось что его друг который ехал за полгода до этого на вопрос Мойши что везти написал ему "вези зеленку" подразумевая что тот поймет что везти надо доллары."
В итоге у мистера Глозмана в russians_rus.xml датасете получился вот такой адский микс из какого-то сборного мигрантского воляпюка и украинско
й мовы и лютой ненависти к России и русским.
Все это безобразие происходит в канадской кузнице кадров - университете Макгилла. И что самое смешное, не нашлось никого кто бы объяснил человеку разницу и что его нейросеточка никогда не будет работать, и не выдаст текст, даже отдалённо похожий на русский язык.
Думаю в будущем все эти наработки применят для чего-то типа кибервойны, но уверен, что будет как в анекдоте про то как американцы готовили несколько лет диверсанта для заброса в тыл, но не учли, что у нас отродясь не было негров.