Size: a a a

Конкурсы Telegram

2019 November 24

s

sorrge in Конкурсы Telegram
dmitry
Свести каждый файл к векторному числовому дескриптору, а потом KNN например который N logN
KNN дает логарифмическую скорость только для небольшой размерности пространства. С ее увеличением он быстро деградирует в линейный поиск
источник

s

sorrge in Конкурсы Telegram
К тому же с векторами много проблем. Модели большие, плохо учитываются редкие слова
источник

s

sorrge in Конкурсы Telegram
Смотря какие вектора использовать. Обычно это 100-300 элементов, что для kd tree очень много, например
источник

s

sorrge in Конкурсы Telegram
100000 таких векторов будут долго сравниваться друг с другом
источник

s

sorrge in Конкурсы Telegram
Может, их можно спроецировать на 3-4 мерное пространство. Надо смотреть, как это все работать будет
источник

A

Andrey in Конкурсы Telegram
а кто-нибудь уже декомпозировал функцию, приводящую домен источника новости и заголовок к имени файла?
источник

s

sorrge in Конкурсы Telegram
Как оценить качество группировки по сюжетам?
источник

s

sorrge in Конкурсы Telegram
Непонятно, сколько групп алгоритм не нашёл
источник

s

sorrge in Конкурсы Telegram
Вручную это размечать ещё труднее, чем категории
источник

AZ

Andrey Zakharov in Конкурсы Telegram
Мне вообще до конца не ясно, что является новостью, я что нет. Например: DataClusteringSample0817/20191111/15/7974306616239086491.html ("Мы заработали на интернет-магазине $160 000, но все равно пришлось его закрыть: кейс") или DataClusteringSample0817/20191111/15/1445164494366389610.html ("Пикантные фотографии артистки взбудоражили Сеть")
источник

s

sorrge in Конкурсы Telegram
Andrey Zakharov
Мне вообще до конца не ясно, что является новостью, я что нет. Например: DataClusteringSample0817/20191111/15/7974306616239086491.html ("Мы заработали на интернет-магазине $160 000, но все равно пришлось его закрыть: кейс") или DataClusteringSample0817/20191111/15/1445164494366389610.html ("Пикантные фотографии артистки взбудоражили Сеть")
Про фотографии это новость, про мы заработали - нет
источник

s

sorrge in Конкурсы Telegram
Я так считаю
источник

AZ

Andrey Zakharov in Конкурсы Telegram
sorrge
Про фотографии это новость, про мы заработали - нет
А почему, какой критерий?
источник

s

sorrge in Конкурсы Telegram
Andrey Zakharov
А почему, какой критерий?
Недавнее событие с медиаперсоной; важность
источник

s

sorrge in Конкурсы Telegram
Мы заработали - история из жизни ноунейма, скорее литература/советы
источник

AZ

Andrey Zakharov in Конкурсы Telegram
Да, ноунеймы периодически появляются в новостях типа "Полицейские обнаружили ...." или "Неизвестные похитили..."
источник

AZ

Andrey Zakharov in Конкурсы Telegram
Хотя налачие Имя собвенного в заголовке может быть хорошим индикатором новости
источник

SV

Stas Vlasov in Конкурсы Telegram
Я уже сделал, жена сидит размечает
источник

SV

Stas Vlasov in Конкурсы Telegram
источник

SV

Stas Vlasov in Конкурсы Telegram
Примерно так выглядит
источник