Size: a a a

Конкурсы Telegram

2019 November 21

SA

See All in Конкурсы Telegram
вот это ты отнес к ру или анг? я теряюсь
источник

НК

Николай Карпенко in Конкурсы Telegram
other
источник

A

Andrey in Конкурсы Telegram
See All
вот это ты отнес к ру или анг? я теряюсь
этo на выбрoс идёт
источник

SA

See All in Конкурсы Telegram
Николай Карпенко
распределение по языка
[other] => 266201
   [ru] => 117936
   [en] => 83347
а, у тебя азер есть. Я писал тому, у кого только ру и ен)
источник

SA

See All in Конкурсы Telegram
Andrey
ru: 139567
en: 227058 (?)
.
источник

A

Andrey in Конкурсы Telegram
не, такoе как на скрине не прoпускается
источник

SA

See All in Конкурсы Telegram
хотя там не 460к 🤔
источник

N

NeoSHNIK in Конкурсы Telegram
Ребята, привет. У меня два вопроса.
1. Чтобы выполнить задачу с новостным аггрегатором правильно использовать нейронную сеть и word embedding. Нейронную есть в теории можно тренировать, и потом использовать в C++ чтобы быстрее работала. Но word embeddings для русского и английского языков будут занимать много места на диске и в 200МБ не поместятся. Или я чего-то не понимаю?
2. Дальше - было бы прикольно если бы был категоризинованный сет для тренировки. Наверное у работников яндекса которых вы хотите переманить уже есть такой сет. У меня нету. Тем более чтобы определить новости от информации / блога.
источник

НК

Николай Карпенко in Конкурсы Telegram
2. дата сетов полно в инете
источник

НК

Николай Карпенко in Конкурсы Telegram
разве что для русского поменьше
источник

SA

See All in Конкурсы Telegram
NeoSHNIK
Ребята, привет. У меня два вопроса.
1. Чтобы выполнить задачу с новостным аггрегатором правильно использовать нейронную сеть и word embedding. Нейронную есть в теории можно тренировать, и потом использовать в C++ чтобы быстрее работала. Но word embeddings для русского и английского языков будут занимать много места на диске и в 200МБ не поместятся. Или я чего-то не понимаю?
2. Дальше - было бы прикольно если бы был категоризинованный сет для тренировки. Наверное у работников яндекса которых вы хотите переманить уже есть такой сет. У меня нету. Тем более чтобы определить новости от информации / блога.
1. эмбеддинги можно урезать, сетки брать легче, например, дистиллированные
источник

МБ

Максим Бекузаров in Конкурсы Telegram
1) Не "правильно", а "можно"
источник

N

NeoSHNIK in Конкурсы Telegram
без них результат будет хуже, я похожую задачу решал и офигел как от них улучшается результат. Ну ладно, урежу эмбеддинги и поищу датасеты. Спасибо за быстрые ответы.
источник

SA

See All in Конкурсы Telegram
быстрее от самих плюсов, кстати, работать не будет. Разница будет мизер по сравнению с обертками на питоне, так как это..ээ.. обертки над плюсами
источник

SA

See All in Конкурсы Telegram
разве что на конвертацию данных будет время тратиться, но там мизер из общего пула
источник

МБ

Максим Бекузаров in Конкурсы Telegram
Ну так-то да
источник

МБ

Максим Бекузаров in Конкурсы Telegram
тот же tensorflow - это 600+ метров чистого c++ и CUDA
источник

МБ

Максим Бекузаров in Конкурсы Telegram
Еще одна причина, кстати, почему Deep Learning в данной задаче не слишком уместен)
источник

SA

See All in Конкурсы Telegram
благо куда нам не нужна, сразу половина минус
источник

SA

See All in Конкурсы Telegram
Максим Бекузаров
Еще одна причина, кстати, почему Deep Learning в данной задаче не слишком уместен)
ля
источник