Size: a a a

Python для анализа данных

2021 March 16

VM

Valerii Mamontov in Python для анализа данных
Илья Ревин
Какие есть пути сделать изи питон проекта в пайчарме
я делал с помощью этой либы
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Кирилл Дмитриевич
Привет. У меня стоит задача подсчитать интервал возвращения клиента в магазин. Среднее у меня 17, медиана 12. Если брать от среднего доверительный интервал, получается 17 + 1,96*se = 19. Правильно ли будет интерпретировать, что вероятность возврата клиента после 19 дня менее 5%?
Интуитивно понятно что это неточно. Там же скошенное распределение. но не готов сослаться на какую-нибудь книжку или определение
источник

VM

Valerii Mamontov in Python для анализа данных
Илья Ревин
установить пакеты через pip install -r requirements
да, можно
источник

BP

Bogdan Pilyavets in Python для анализа данных
Кирилл Дмитриевич
Привет. У меня стоит задача подсчитать интервал возвращения клиента в магазин. Среднее у меня 17, медиана 12. Если брать от среднего доверительный интервал, получается 17 + 1,96*se = 19. Правильно ли будет интерпретировать, что вероятность возврата клиента после 19 дня менее 5%?
Я бы сказал, что нет, это не правильно. Доверительный интервал вы построили именно для средней (опустим для простоты проверку того, выполнялись ли предпосылки ЦПТ). Максимум, что вы можете сказать - вероятность того, что средняя по популяции больше 19-и - 5% (строго говоря, это тоже некорректно, но для общения с бизнес-юзерами сойдет). Вам же, как мне кажется, нужно посчитать доверительный интвервал 95-ого (ну или какой вы там выберете) перцентиля.
источник

КД

Кирилл Дмитриевич... in Python для анализа данных
Bogdan Pilyavets
Я бы сказал, что нет, это не правильно. Доверительный интервал вы построили именно для средней (опустим для простоты проверку того, выполнялись ли предпосылки ЦПТ). Максимум, что вы можете сказать - вероятность того, что средняя по популяции больше 19-и - 5% (строго говоря, это тоже некорректно, но для общения с бизнес-юзерами сойдет). Вам же, как мне кажется, нужно посчитать доверительный интвервал 95-ого (ну или какой вы там выберете) перцентиля.
По какому принципу предлагаете расчитывать порог оттока клиента? До этого считали до границы выброса, но получалось какое-то слишком большое число.
источник

I

Igor in Python для анализа данных
Кирилл Дмитриевич
Привет. У меня стоит задача подсчитать интервал возвращения клиента в магазин. Среднее у меня 17, медиана 12. Если брать от среднего доверительный интервал, получается 17 + 1,96*se = 19. Правильно ли будет интерпретировать, что вероятность возврата клиента после 19 дня менее 5%?
А не пробовали подобрать геометрическое или экспоненциальное распределение по ваши данные?
источник

BP

Bogdan Pilyavets in Python для анализа данных
Кирилл Дмитриевич
По какому принципу предлагаете расчитывать порог оттока клиента? До этого считали до границы выброса, но получалось какое-то слишком большое число.
тут не помогу, сорри. Это вам виднее, все зависит от специфики бизнеса/продукта
источник
2021 March 17

КД

Кирилл Дмитриевич... in Python для анализа данных
Igor
А не пробовали подобрать геометрическое или экспоненциальное распределение по ваши данные?
Не очень силен в статистике на этом уровне. Так бы я наугад ткнул куда-нибудь, но руководство требует математическое обоснование
источник

I

Igor in Python для анализа данных
Кирилл Дмитриевич
Не очень силен в статистике на этом уровне. Так бы я наугад ткнул куда-нибудь, но руководство требует математическое обоснование
источник

I

Igor in Python для анализа данных
У тебя как то так распределение выглядит?
источник

КД

Кирилл Дмитриевич... in Python для анализа данных
Ну, почти
источник

НН

Настя Настя... in Python для анализа данных
😁
источник

I

Igor in Python для анализа данных
Настя Настя
😁
?)
источник

НН

Настя Настя... in Python для анализа данных
Про почти))
источник

НН

Настя Настя... in Python для анализа данных
Улыбнуло с утра пораньше
источник

НН

Настя Настя... in Python для анализа данных
Как-то для статистических расчетов пользовалась программой eViews
источник

КД

Кирилл Дмитриевич... in Python для анализа данных
Может, в R есть какой-то пакет для этого?
источник

I

Igor in Python для анализа данных
Ну, идеального ничего не бывает. В общем, есть Байесовский подход к оценке параметров распределения (для дискретного случая только он и подойдёт) и есть численный метод к оценке функции. Можешь погуглить, в принципе, потому что статью здесь не особо хотелось бы писать да и думаю что есть какой то код Stackowerflow.
источник

I

Igor in Python для анализа данных
Суть в том что ты перебираешь некоторый массив параметров p, потом через pdf оцениваешь правдоподобие получить твои значения с этого распределения и выбираешь тот параметр, для которого сума этого правдоподобия по всем элементам выборки наибольшая. Дальше за Хи2 проверяешь goodness of fit статистику для того чтобы оценить насколько отклоняется наблюдаемое от теоретического распределения и, если все ОК, то по полученному параметру оцениваешь вероятность возврата клиента через n дней с помощью PMF распределения с полученным параметром
источник

I

Igor in Python для анализа данных
Это если не усложнять методами Монте Карло
источник