Телеграмм чат группы contests

Ребята, привет. У меня два вопроса.
1. Чтобы выполнить задачу с новостным аггрегатором правильно использовать нейронную сеть и word embedding. Нейронную есть в теории можно тренировать, и потом использовать в C++ чтобы быстрее работала. Но word embeddings для русского и английского языков будут занимать много места на диске и в 200МБ не поместятся. Или я чего-то не понимаю?
2. Дальше - было бы прикольно если бы был категоризинованный сет для тренировки. Наверное у работников яндекса которых вы хотите переманить уже есть такой сет. У меня нету. Тем более чтобы определить новости от информации / блога.

источник

00:43пожаловаться #8

НК

Николай Карпенко in Конкурсы Telegram

2. дата сетов полно в инете

источник

00:44пожаловаться #9

НК

Николай Карпенко in Конкурсы Telegram

разве что для русского поменьше

источник

00:45пожаловаться #10

SA

See All in Конкурсы Telegram

NeoSHNIK

Ребята, привет. У меня два вопроса.
1. Чтобы выполнить задачу с новостным аггрегатором правильно использовать нейронную сеть и word embedding. Нейронную есть в теории можно тренировать, и потом использовать в C++ чтобы быстрее работала. Но word embeddings для русского и английского языков будут занимать много места на диске и в 200МБ не поместятся. Или я чего-то не понимаю?
2. Дальше - было бы прикольно если бы был категоризинованный сет для тренировки. Наверное у работников яндекса которых вы хотите переманить уже есть такой сет. У меня нету. Тем более чтобы определить новости от информации / блога.

1. эмбеддинги можно урезать, сетки брать легче, например, дистиллированные

источник

00:45пожаловаться #11

МБ

Максим Бекузаров in Конкурсы Telegram

1) Не "правильно", а "можно"

источник

00:45пожаловаться #12

N

NeoSHNIK in Конкурсы Telegram

без них результат будет хуже, я похожую задачу решал и офигел как от них улучшается результат. Ну ладно, урежу эмбеддинги и поищу датасеты. Спасибо за быстрые ответы.

источник

00:46пожаловаться #13

SA

See All in Конкурсы Telegram

быстрее от самих плюсов, кстати, работать не будет. Разница будет мизер по сравнению с обертками на питоне, так как это..ээ.. обертки над плюсами

источник

00:46пожаловаться #14

SA

See All in Конкурсы Telegram

разве что на конвертацию данных будет время тратиться, но там мизер из общего пула

источник

00:47пожаловаться #15