Size: a a a

Python для анализа данных

2021 March 17

I

Igor in Python для анализа данных
Кирилл Дмитриевич
А как построить доверительные интервалы для гамма-распределения? Гуглю, но ничего не понимаю
Что ты понимаешь под доверительным интервалом? Ты аналитически можешь выразить нужные квантили через обратную функцию распределения
источник

I

Igor in Python для анализа данных
Кирилл Дмитриевич
А как построить доверительные интервалы для гамма-распределения? Гуглю, но ничего не понимаю
Прошу прощения, забыл что это за распределение...))
источник

I

Igor in Python для анализа данных
Так же есть функция scipy.stats.gamma.interval
источник

ГД

Григорий Демин... in Python для анализа данных
Кирилл Дмитриевич
Привет. У меня стоит задача подсчитать интервал возвращения клиента в магазин. Среднее у меня 17, медиана 12. Если брать от среднего доверительный интервал, получается 17 + 1,96*se = 19. Правильно ли будет интерпретировать, что вероятность возврата клиента после 19 дня менее 5%?
Можно попробовать без предположения о распределении рассчитать 95% квантиль на ваших данных: np.quantile(interval, 0.95)
источник

I

Igor in Python для анализа данных
Григорий Демин
Можно попробовать без предположения о распределении рассчитать 95% квантиль на ваших данных: np.quantile(interval, 0.95)
Зачем, если есть специальная функция для этого распределения?
источник

ГД

Григорий Демин... in Python для анализа данных
Igor
Зачем, если есть специальная функция для этого распределения?
Зачем аппроксимировать данные распределением, если можно получить квантиль сразу на реальных данных?
источник

VM

Valerii Mamontov in Python для анализа данных
Darya
Привет! Есть датасет с полями: юзер айди, количество его покупок (в штуках), сумма покупок. Необходимо разделить его на 2 части так, чтобы среднее (или медианное) значение количества покупок и суммы покупок было равное в обеих группах. Подскажите, плиз, как это можно реализовать?
Можно написать алгоритм, который будет искать все возможные комбинации (сначала по столбцу с числом покупок, потом по столбцу с суммой покупок, а в конце сравнивать два списка). Таких комбинаций может и не быть.
источник

I

Igor in Python для анализа данных
Григорий Демин
Зачем аппроксимировать данные распределением, если можно получить квантиль сразу на реальных данных?
Вопрос был не о данных, а о распределении.
источник

ГД

Григорий Демин... in Python для анализа данных
Igor
Вопрос был не о данных, а о распределении.
>У меня стоит задача подсчитать интервал возвращения клиента в магазин.

Квантиль как раз и даёт этот интервал без предположений распределении
источник

I

Igor in Python для анализа данных
Григорий Демин
Зачем аппроксимировать данные распределением, если можно получить квантиль сразу на реальных данных?
Так же, если есть предположение о том что случайная величина генерируется каки бы то ни было распределением, то понимание такого распределение даёт возможность понимать генерируются последующие величины этим же распределением или нет.
источник

VR

Vasily Rozhkov in Python для анализа данных
Кирилл Дмитриевич
А как построить доверительные интервалы для гамма-распределения? Гуглю, но ничего не понимаю
можно бустрэп пользовать для перехода к нормальному распределению для оценки ошибки среднего. оттуда и интервалы построить. напрямую выводить это будет жесть - весьма нетривиально
источник

ГД

Григорий Демин... in Python для анализа данных
Igor
Так же, если есть предположение о том что случайная величина генерируется каки бы то ни было распределением, то понимание такого распределение даёт возможность понимать генерируются последующие величины этим же распределением или нет.
Проще разбить на трейн и тест и убедиться что и там и там 95% квантиль одинаковый
источник

I

Igor in Python для анализа данных
Григорий Демин
>У меня стоит задача подсчитать интервал возвращения клиента в магазин.

Квантиль как раз и даёт этот интервал без предположений распределении
Я не увидел что это по той же задаче. Здесь простая квантильная оценка вообще ни к чему, поскольку нельзя будет смоделировать поведение покупателей в будущем. Что даст информация, что сейчас 95% процентов покупателей  возвращаются в период от 5 до 30 дней? Как смоделировать поведение в будущем? Как оценить вероятность того что покупатель вернётся через n дней? Как, если уж на то пошло, вообще оценить интервал для несимметричного распределение простым квантильным методом - в таком случае уже нужно думать или использовать HDI, или обрезать правый хвост, или симметрично.
источник

ГД

Григорий Демин... in Python для анализа данных
Igor
Я не увидел что это по той же задаче. Здесь простая квантильная оценка вообще ни к чему, поскольку нельзя будет смоделировать поведение покупателей в будущем. Что даст информация, что сейчас 95% процентов покупателей  возвращаются в период от 5 до 30 дней? Как смоделировать поведение в будущем? Как оценить вероятность того что покупатель вернётся через n дней? Как, если уж на то пошло, вообще оценить интервал для несимметричного распределение простым квантильным методом - в таком случае уже нужно думать или использовать HDI, или обрезать правый хвост, или симметрично.
Меняется ли поведение покупателя в будущем - это совсем другой вопрос, распределение на него не ответит. Скорее уж quantile regression от тренда
источник

I

Igor in Python для анализа данных
Да - можно бутстреп. Но если есть возможность оценить аналитическую формулу, то зачем искажать данные?
источник

VR

Vasily Rozhkov in Python для анализа данных
Igor
Да - можно бутстреп. Но если есть возможность оценить аналитическую формулу, то зачем искажать данные?
это для ленивых )
источник

I

Igor in Python для анализа данных
Vasily Rozhkov
это для ленивых )
Тогда можно))
источник

I

Igor in Python для анализа данных
Григорий Демин
Меняется ли поведение покупателя в будущем - это совсем другой вопрос, распределение на него не ответит. Скорее уж quantile regression от тренда
Вот как-то сомневаюсь))) Такие величины моделируются больше с помощью GLM, для которых распределение, генерирующие случайную величину важно)
источник

BP

Bogdan Pilyavets in Python для анализа данных
Справедливости ради, доверительный интервал для квантиля вполне себе и без бутстрэпа, и без предположения о распределении популяции строится, потому что количество иксов меньших, чем номер квантиля распределено биномиально
источник

ГД

Григорий Демин... in Python для анализа данных
Igor
Вот как-то сомневаюсь))) Такие величины моделируются больше с помощью GLM, для которых распределение, генерирующие случайную величину важно)
Если там двадцать точек или около того, то подход с аппроксимацией распределением имеет право на жизнь. Если сотни и тысячи точек, то какой смысл? Все можно рассчитать и проверить без всяких дополнительных предположений
источник