Size: a a a

Конкурсы Telegram

2019 November 27

Dp

Danila plee in Конкурсы Telegram
Eugene Koinov
у меня с группами очень просто, по факту получился алгоритм без привязки к языку.
это на берт?
источник

EK

Eugene Koinov in Конкурсы Telegram
завтра буду смотреть уже на результаты и думать
источник

EK

Eugene Koinov in Конкурсы Telegram
Danila plee
это на берт?
нет. я даже не знаю что это.
источник

Dp

Danila plee in Конкурсы Telegram
))
источник

НК

Николай Карпенко in Конкурсы Telegram
Danila plee
entertainment
если там ни слова о музыке, то на мой взгляд, это не входит в категории конкурса и больше типа к категории lifestyle
источник

EK

Eugene Koinov in Конкурсы Telegram
я задаю на каждую группу по пять слов, и учу на 10к текстов
источник

EK

Eugene Koinov in Конкурсы Telegram
из них языковых наверное 2к.
источник

EK

Eugene Koinov in Конкурсы Telegram
ну я не агитирую, явно что-то интереснее можно придумать, но тут меньше вероятность оверфиттинга и эти слова легко можно узнать а гуглтрармлейте для каждого языка
источник

EK

Eugene Koinov in Конкурсы Telegram
и скорость линейная
источник

EK

Eugene Koinov in Конкурсы Telegram
Николай Карпенко
если там ни слова о музыке, то на мой взгляд, это не входит в категории конкурса и больше типа к категории lifestyle
мне кажется вы усложняете
источник

EK

Eugene Koinov in Конкурсы Telegram
вот, кстати, если разбить на подкатегории, мне кажется было бы проще мэтчить, так очень размыто
источник

EK

Eugene Koinov in Конкурсы Telegram
Danila plee
но это не на питоне а на плюсах c настоящей многопоточностью, очередями и кластерами 🙂
это очень круто, то есть вы сначала кластеризуете варианты, потом собираете в группы внутри ? потому что перебирать 100к!  так себе история
источник

EK

Eugene Koinov in Конкурсы Telegram
я кстати, попробовал кламтеризовать сначала, мне не понравилось
источник

Dp

Danila plee in Конкурсы Telegram
всё исполняется парралельно
источник

Dp

Danila plee in Конкурсы Telegram
)
источник

d

dm in Конкурсы Telegram
я кстати так же делаю, сначала кластеризовал, потом пачками разметил кластеры. более менее норм сработало для русского, но для англа чото не очень
источник

EK

Eugene Koinov in Конкурсы Telegram
Danila plee
всё исполняется парралельно
ну так то даже у меня на питоне параллельно группируются категории со 100% загрузкой cpu, но группа в 10к будет очень долго сортироваться, при том, что либы которые это делают написаны на c
источник

Hingulijak Аlla in Конкурсы Telegram
Ок
источник

s

sorrge in Конкурсы Telegram
Даже в тех датасетах, что нам дали, есть папки с ~8000 файлов
источник

s

sorrge in Конкурсы Telegram
Так что если 10к это очень долго, нужно делать быстрее
источник