Size: a a a

Python для анализа данных

2021 May 12

АР

Александр Райков... in Python для анализа данных
У вас одна же выборка в пункте 1
источник

DZ

Daniel Zaharov in Python для анализа данных
Нет. Сгенерированы две выборки из одного распределения. Видимо, не очень понятно написал.
источник

DZ

Daniel Zaharov in Python для анализа данных
в каждом случае генерируются две.
источник

АР

Александр Райков... in Python для анализа данных
А. Ну тогда (6-1) х (2-1) = 5
источник

АР

Александр Райков... in Python для анализа данных
6 исходов потому что от 0 до 5 попаданий
источник

DZ

Daniel Zaharov in Python для анализа данных
Тогда там 5 степеней свободы судя по тому, что вы написали, а не 10. Понял, большое спасибо. А P-value как в данном случае считать?
источник

АР

Александр Райков... in Python для анализа данных
Да, я тупанул
источник

АР

Александр Райков... in Python для анализа данных
P-значение и выдаст после запроса хи-квадрат распределения с 5 степенями свободы
источник

DZ

Daniel Zaharov in Python для анализа данных
а, а статистика - это просто сумма, так?
источник

АР

Александр Райков... in Python для анализа данных
Сумма по таблице, да
источник

DZ

Daniel Zaharov in Python для анализа данных
спасибо большое. Очень помогли. Я вторую неделю сижу над заданием в целом, только сейчас нормально разобрался.
источник

DZ

Daniel Zaharov in Python для анализа данных
И последний вопрос, если можно. Можете подсказать вот этот момент, куда я конкретно это должен передать? И, я так понимаю, передаю список вот этих вот получившихся отклонений, не сумму, так?
источник

АР

Александр Райков... in Python для анализа данных
Сумму
источник

DZ

Daniel Zaharov in Python для анализа данных
Понял. Ещё раз большое спасибо. Вечером сяду программировать. Если появятся вопросы, если можно, ещё напишу. Вряд ли, но всё-таки.
источник

AM

Andrey Mol'kov in Python для анализа данных
Привет всем! Может кто сталкивался с похожей задачей. Есть выборка с параметрами пользователей которые "подключили услугу". И есть выборка из которой нужно выбрать максимально похожих на первую пользователей. Какой метод мл применить, куда копать?) В идеале создать столбец в % на сколько строка подходит в группе
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Так это предполагается, что вы продемонстрируете весь набор своих навыков, испробуете разные алгоритмы и лучшая точность никак не ограничена.
Сейчас вроде с градиентного бустинга принято начинать.
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Или в исходных данных нет тех кто не подключил и предлагается выделить суть вручную?
Интересное задание. Наверное сами данные больше скажут чем словесная формулировка.
Или формулировка неточная
источник

AM

Andrey Mol'kov in Python для анализа данных
Да, есть только список кто подключил услугу. Кто не подключил нет. И есть общий список пользавателей из которых нужно выбрать максимально похожих на тех кто подключил услугу
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Как-то искусственно усложнили задачу. Разве так бывает в жизни?
Предлагаю по-прежнему делать xgboost, но разметить всю остальную пачку как не подключивших. Все равно должно выдавать какой-то результат.
Скорее всего в самом распределении данных есть видимые закономерности и их надо найти. А потом выбрать простой не склонный к переобучению алгоритм типа логистической регрессии или knn
источник

AK

Alex K in Python для анализа данных
Народ, а кто-то в метрике в электр коммерции разбирается? Надо получить такой отчёт «строка это номер заказ, а столбцы Наименование просмотренных товаров во время визита, Наименования добавленных в корзину товаров, Наименования купленных товаров»
источник