Ребята, привет. У меня два вопроса.
1. Чтобы выполнить задачу с новостным аггрегатором правильно использовать нейронную сеть и word embedding. Нейронную есть в теории можно тренировать, и потом использовать в C++ чтобы быстрее работала. Но word embeddings для русского и английского языков будут занимать много места на диске и в 200МБ не поместятся. Или я чего-то не понимаю?
2. Дальше - было бы прикольно если бы был категоризинованный сет для тренировки. Наверное у работников яндекса которых вы хотите переманить уже есть такой сет. У меня нету. Тем более чтобы определить новости от информации / блога.
1. эмбеддинги можно урезать, сетки брать легче, например, дистиллированные