Size: a a a

Machine learning

2020 November 16

I

Ibp in Machine learning
Ivan Krokhalyov
неправильно задал вопрос)

вообще у меня список "утро", "день", "вечер",  "ночь" по каждому пользователю. и я хотел бы сравнивать времяпровождение юзеров(похожи или нет)
наверно перевод в 0,1,2,3 это не очень корректно, так как я не могу их численно сравнивать между собой
насколько они большие эти выборки?
источник

IK

Ivan Krokhalyov in Machine learning
элементов по 200-300 примерно
источник

I

Ibp in Machine learning
Ivan Krokhalyov
элементов по 200-300 примерно
то есть там для каждого действия-времяпровождение указано время суток а действий 200-300? или как
источник

K

K-S in Machine learning
я полагаю, имеется в виду на каждого пользователя имеется сиквенс из 200-300 элементов вида (утро-утро-ночь-утро-день-итд)
источник

IK

Ivan Krokhalyov in Machine learning
ну да, собраны действия за определеный промежуток времени. я огрубляю  точную дату до четырех категорий - утро день вечер ночь, а про остальное(год, месяц, день недели) забываю
источник

IK

Ivan Krokhalyov in Machine learning
K-S
я полагаю, имеется в виду на каждого пользователя имеется сиквенс из 200-300 элементов вида (утро-утро-ночь-утро-день-итд)
+
источник

I

Ibp in Machine learning
K-S
я полагаю, имеется в виду на каждого пользователя имеется сиквенс из 200-300 элементов вида (утро-утро-ночь-утро-день-итд)
последовательность  в смысле?
источник

IK

Ivan Krokhalyov in Machine learning
ну, на самом деле порядок не важен в этой последовательности
источник

IK

Ivan Krokhalyov in Machine learning
только частоты значений я так думаю
источник

K

K-S in Machine learning
хм... по идее нужна некая альтернатива тесту колмогорова-смирнова на разность распределений, но только для категориальных переменных. Мне в голову пока только костыли какие-то приходят в голову
источник

IK

Ivan Krokhalyov in Machine learning
можно просто квадраты разностей частот просуммировать))_))) но может что то поумнее есть
источник

K

K-S in Machine learning
по типу: давайте для юзера 1 посчитаем его выборочные доли для утра, дня, вечера и ночи. И скажем, что это как будто бы теоретические значения. А потом посчитаем тест хи-квадрат для юзера 2, чтобы оценить, а насколько стат значимо его выборочные частоты отличаются от "якобы теоретических" частот (которые на самом деле есть выборочные частоты юзера 1)
источник

K

K-S in Machine learning
Ivan Krokhalyov
можно просто квадраты разностей частот просуммировать))_))) но может что то поумнее есть
но тебе ведь надо тогда все в числа перевести, а если это сделать как ты предложил выше (типа 0 -- утро, 3 -- вечер), то ошибка утро-вечер будет считаться бОльшей, чем ошибка утро-день
источник

IK

Ivan Krokhalyov in Machine learning
K-S
но тебе ведь надо тогда все в числа перевести, а если это сделать как ты предложил выше (типа 0 -- утро, 3 -- вечер), то ошибка утро-вечер будет считаться бОльшей, чем ошибка утро-день
не, я имею ввиду разности выборочных долей)
источник

IK

Ivan Krokhalyov in Machine learning
есть 0:p0,q0, 1:p1,q1, 2:p2,q2, 3:p3,q3, и сделать sum(p_i-q_i)^2
источник

K

K-S in Machine learning
a, ну по сути да, похоже как бы на мой костыль. Единственная проблема, это что по факту мы используем тут везде выборочные доли, а не теоретические (как того требует тест хи-квадрат), поэтому не факт, что посчитанная таким образом статистика будет себя вести в соответствии с хи-квадрат распределением. Но это если вы хотите потом тест какой-либо провести
источник

I

Ibp in Machine learning
а ANOVA тест тут нельзя просто сделать?
источник

I

Ibp in Machine learning
хотя это сложно наверное будет
источник

K

K-S in Machine learning
Ibp
а ANOVA тест тут нельзя просто сделать?
так тут же числовых переменных нет
источник

IK

Ivan Krokhalyov in Machine learning
да не, тест не обязательно, хоть как то просто оценить сходство
вроде то что мне нужно - дивергенция Кульбака-Лейблера
источник