Size: a a a

Конкурсы Telegram

2019 November 25

Y💜

Yuri ♂️ 💜 Ly in Конкурсы Telegram
Если сделаешь, то это только дополнительный плюс
источник

НК

Николай Карпенко in Конкурсы Telegram
Группировщик в сюжеты не может существовать в вакууме одноразового запуска, как это требует конкурс. Необходимо накопление данных о выделенных ранее сюжетах. В противном случае, один массив обработанных данных будет не связан с другими, и собственно сюжеты будут, кто в лес кто по дрова, задвоение групп и сюжетов с похожими названиями. Просто как факт, что группировщик умеет кластеризовать на уровне документов в какие-то группы, ну ок. Либо как вариант это группировщик будет все новости за неделю месяц лопатить в разовом запуске.
источник

НК

Николай Карпенко in Конкурсы Telegram
Yuri ♂️ 💜 Ly
Если ты можешь этого избежать, то сделай. Но задача этого не требует и никто не говорил, что продукт победителя будут сразу в таком виде использовать или вообще будут.
Ну это больше к условиям конкурса, которые весьма размыты. Каждый сделает на свое субьективное усмотрение и трактовку. Это больше похоже на конкурс художников на свободную тему😁
источник

Y💜

Yuri ♂️ 💜 Ly in Конкурсы Telegram
Правила конкурса:
Use common sense.
источник

Y💜

Yuri ♂️ 💜 Ly in Конкурсы Telegram
Николай Карпенко
Ну это больше к условиям конкурса, которые весьма размыты. Каждый сделает на свое субьективное усмотрение и трактовку. Это больше похоже на конкурс художников на свободную тему😁
Напомню
источник

d

dmitry in Конкурсы Telegram
Николай Карпенко
Группировщик в сюжеты не может существовать в вакууме одноразового запуска, как это требует конкурс. Необходимо накопление данных о выделенных ранее сюжетах. В противном случае, один массив обработанных данных будет не связан с другими, и собственно сюжеты будут, кто в лес кто по дрова, задвоение групп и сюжетов с похожими названиями. Просто как факт, что группировщик умеет кластеризовать на уровне документов в какие-то группы, ну ок. Либо как вариант это группировщик будет все новости за неделю месяц лопатить в разовом запуске.
Это необязательно
источник

d

dmitry in Конкурсы Telegram
Допустим, если мы каждый документ маппим в некоторый числовой вектор, а потом просто группируем все в кластера по порогу расстояния, то можно из любой выборки выделять сюжеты — будет там 10 или 10000 документов, принципиально результат будет одинаковым
источник

d

dmitry in Конкурсы Telegram
И конкретные сюжеты будут такими же (если среди 10000 документов не появилось чего-то крайне похожего)
источник

ДП

Дмитрий Павлов in Конкурсы Telegram
dmitry
Допустим, если мы каждый документ маппим в некоторый числовой вектор, а потом просто группируем все в кластера по порогу расстояния, то можно из любой выборки выделять сюжеты — будет там 10 или 10000 документов, принципиально результат будет одинаковым
Все же решил раскрыть карты 💳💳🤣
источник

d

dmitry in Конкурсы Telegram
В целом когда делаются вычисления на объеме и на кластере — необходимость иметь выборку целиком для адекватной работы это плохое свойство алгоритма
источник

d

dmitry in Конкурсы Telegram
Оптимально если каждый воркер может независимо делать основную часть работы и потом уже дешево на верхнем уровне группировать
источник

ДП

Дмитрий Павлов in Конкурсы Telegram
dmitry
Оптимально если каждый воркер может независимо делать основную часть работы и потом уже дешево на верхнем уровне группировать
Именно так и следует делать. Еще не только группировать, но и ранжировать
источник

d

dmitry in Конкурсы Telegram
Просто прозвучало утверждение которое вообще говоря не является верным, хотя понятно что имея всю выборку логически проще
источник

НК

Николай Карпенко in Конкурсы Telegram
Попробую пример привести.

1. Сет первый
Наводнение в Иркутске завершилось
Сильное наводнение в Иркутске началось
2. Сет второй
Глава МЧС прилетел в Иркутск по вопросам наводнения
Глава МЧС прилетит завтра
в Иркутск по вопросам наводнения.

Я полагаю, если группировщик не будет ведить все датасеты, он выделит в первом сюжет наводнение, а во втором  'глава МЧС', а наводнение не заметит как сюжет. и эти группы будут отдельно существовать в то время как это один общий сюжет про 'наводнение в Иркутске' условно. Или нет?
источник

d

dmitry in Конкурсы Telegram
Да, но никакой алгоритм не может выделить в сюжет то, чего не дали вход
источник

d

dmitry in Конкурсы Telegram
Тут важнее можно ли раздельно обсчитывать 1-й и 2-й сет, а потом дешево сгруппировать все блоки в сюжеты? Если да, то это хороший алгоритм для большого объема данных. В частности не надо будет перезапускать подсчеты для 1-го сета когда “приедет” второй
источник

НК

Николай Карпенко in Конкурсы Telegram
Я глянул в Яндекс новости группировку по сюжетам.

Например, Тесла получил 146 тыс предзаказов на cybertruck. Этот сюжет никак не связан с сюжетом о презентации cybertruck. Взгрустнул 😂 За почти 20 лет развития сервиса такой регресс. Зачем мне видеть, что новость была дублирована на 7000 сми (часть из которых к тому же дно) , когда интересно есть ли в этих публикациях дополнения или новая информация, ну и как этот сюжет связан с другими.

Вот ваша логика и подтвердилась по независимости обработки датасетов. Сразу видно лопатят новости за день два  и гудбай.

Подозреваю, условия конкурса писал яндексоид, он и тянет за собой архитекиуру Яндекса.

В общем вопросов больше не имею.
источник

d

dm in Конкурсы Telegram
в комментарии чувствуется давняя обида на яндекс за что-то)
источник

SA

See All in Конкурсы Telegram
Фух слава богу
источник

SA

See All in Конкурсы Telegram
Это закончилось
источник