Size: a a a

Machine learning

2020 November 16

I

Ibp in Machine learning
ну я думал как бы каждое действие представить в виде 0,1,2,3  как выполняемое в определенное время суток на каком то отрезке времени. а потом пользователей сравнить по этим выборкам, допустим попарно на каждом дейтствии. Хотя тут не анова а обычный ттест наверное тогда нужен
источник

K

K-S in Machine learning
Ivan Krokhalyov
да не, тест не обязательно, хоть как то просто оценить сходство
вроде то что мне нужно - дивергенция Кульбака-Лейблера
+
источник

KA

K Azef in Machine learning
Оффтопом - Огромное всем спасибо за обсуждение C2W3 в части 1 задания, я было совсем отчаялся))
источник

I

Ibp in Machine learning
Ivan Krokhalyov
да не, тест не обязательно, хоть как то просто оценить сходство
вроде то что мне нужно - дивергенция Кульбака-Лейблера
ту же еще можно, наверное, вариант кластеризации рассмотреть по этим признакам
источник

IK

Ivan Krokhalyov in Machine learning
понял идею, поделить юзеров по кластерам? и если принадлежат одному значит сходство есть
источник

I

Ibp in Machine learning
ну да и использовать категорию как фичу, например
источник

MT

Marina Timakova in Machine learning
Добрый день, разбираюсь с третьей неделей курса "Обучение на размеченных данных". Там в практическом задании есть пункт, где нужно сбалансировать выборку, используя np.random.seed(0)
indices_to_add = np.random.randint(...)
X_train_to_add = X_train[y_train.as_matrix() == 1,:][indices_to_add,:]. Я не совсем понимаю, что мы должны получить на выходе и как должен сработать код.
источник

MT

Marina Timakova in Machine learning
?
источник

MT

Marina Timakova in Machine learning
Помогите, пожалуйста
источник

IC

Ivan Chugunov in Machine learning
Всем привет, такой вопрос по курсу со статистикой: в лекции про t тест для независимых выборок используется, судя по формулам, welch's t test с пометкой, что его можно использовать только если либо размеры выборок равны, либо отношение размеров и разбросов одинаковое (выборка с большим размером имеет и больший разброс). Проблема в том, что ни в вики ни где то ещё не могу найти подтверждение этой инфы, спросил у знакомых аналитиков, тоже не знают. Есть кто то, кто разбирался в этом вопросе и может прояснить, желательно с ссылкой на источник. Заранее спасибо)
источник

i

igor in Machine learning
В чем вопрос
источник

MN

Maxim Neronov in Machine learning
Ivan Chugunov
Всем привет, такой вопрос по курсу со статистикой: в лекции про t тест для независимых выборок используется, судя по формулам, welch's t test с пометкой, что его можно использовать только если либо размеры выборок равны, либо отношение размеров и разбросов одинаковое (выборка с большим размером имеет и больший разброс). Проблема в том, что ни в вики ни где то ещё не могу найти подтверждение этой инфы, спросил у знакомых аналитиков, тоже не знают. Есть кто то, кто разбирался в этом вопросе и может прояснить, желательно с ссылкой на источник. Заранее спасибо)
источник

MN

Maxim Neronov in Machine learning
Ivan Chugunov
Всем привет, такой вопрос по курсу со статистикой: в лекции про t тест для независимых выборок используется, судя по формулам, welch's t test с пометкой, что его можно использовать только если либо размеры выборок равны, либо отношение размеров и разбросов одинаковое (выборка с большим размером имеет и больший разброс). Проблема в том, что ни в вики ни где то ещё не могу найти подтверждение этой инфы, спросил у знакомых аналитиков, тоже не знают. Есть кто то, кто разбирался в этом вопросе и может прояснить, желательно с ссылкой на источник. Заранее спасибо)
источник

MN

Maxim Neronov in Machine learning
По-моему все вопросы относительно различий разных надстроек на критерием Стьюдента описаны в статье про него, либо же в родственных про сами надстройки, как в случае с критерием Уэлша
источник

IC

Ivan Chugunov in Machine learning
Ну тут я вижу только The true distribution of the test statistic actually depends (slightly) on the two unknown population variances (see Behrens–Fisher problem). Статью в вики про сам критерий Уелша тоже смотрел и там тоже нет чёткой формулировки про эти ограничения, ну и в статье про проблему Беренца-Фишера тоже не видно, собственно, поэтому и интересно, откуда эта инфа в курсе)
источник

MN

Maxim Neronov in Machine learning
А в чем вопрос, еще раз, я не до конца суть уловил? Условия применимости различных критериев в зависимости от различий в размерах выборки и однородности дисперсии?
источник

MN

Maxim Neronov in Machine learning
Раньше хорошим тоном было проверять однородность дисперсии перед использованием критерия Стьюдента, но я точно где-то видел статью про робастность критерия Уэлша относительно нарушения этого условия и там было написано про достаточно минимальную потерю мощности (хотя и проблемную в ад-хок оценке)
источник

IC

Ivan Chugunov in Machine learning
Не, вопрос конкретно про критерий Уелша, судя по материалам курса у него есть ограничения (выборки должны быть одинакового размера или у большей выборки должен быть и больший разброс), но кроме курса нигде этих ограничений не вижу, хотелось бы получить источник этой информации
источник

KA

K Azef in Machine learning
Marina Timakova
Добрый день, разбираюсь с третьей неделей курса "Обучение на размеченных данных". Там в практическом задании есть пункт, где нужно сбалансировать выборку, используя np.random.seed(0)
indices_to_add = np.random.randint(...)
X_train_to_add = X_train[y_train.as_matrix() == 1,:][indices_to_add,:]. Я не совсем понимаю, что мы должны получить на выходе и как должен сработать код.
Добрый. np.random.seed(0) задает начальные условия генератора,  indices_to_add = np.random.randint(...) - выдает набор случайных числен в тех границах и количестве, которые ему укажут, для нас это разность классов,   X_train_to_add = X_train[y_train.as_matrix() == 1,:][indices_to_add,:] - формирует фрейм из признаковых описаний объектов 1 класса в объеме indices_to_add
источник

KA

K Azef in Machine learning
as_matrix - в новых версиях деприкэйтед, но можно df[y_train == 1][indices_to_add]
источник