Телеграмм чат группы pydata_chat страница 704

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Python для анализа данных

2138 membersпожаловаться на группу

2021 March 17

I

Igor in Python для анализа данных

Кирилл Дмитриевич

А как построить доверительные интервалы для гамма-распределения? Гуглю, но ничего не понимаю

Что ты понимаешь под доверительным интервалом? Ты аналитически можешь выразить нужные квантили через обратную функцию распределения

источник

20:55пожаловаться #1

I

Igor in Python для анализа данных

Кирилл Дмитриевич

А как построить доверительные интервалы для гамма-распределения? Гуглю, но ничего не понимаю

Прошу прощения, забыл что это за распределение...))

источник

20:57пожаловаться #2

I

Igor in Python для анализа данных

Так же есть функция scipy.stats.gamma.interval

источник

21:05пожаловаться #3

ГД

Григорий Демин... in Python для анализа данных

Кирилл Дмитриевич

Привет. У меня стоит задача подсчитать интервал возвращения клиента в магазин. Среднее у меня 17, медиана 12. Если брать от среднего доверительный интервал, получается 17 + 1,96*se = 19. Правильно ли будет интерпретировать, что вероятность возврата клиента после 19 дня менее 5%?

Можно попробовать без предположения о распределении рассчитать 95% квантиль на ваших данных: np.quantile(interval, 0.95)

источник

21:34пожаловаться #4

I

Igor in Python для анализа данных

Григорий Демин

Можно попробовать без предположения о распределении рассчитать 95% квантиль на ваших данных: np.quantile(interval, 0.95)

Зачем, если есть специальная функция для этого распределения?

источник

21:39пожаловаться #5

ГД

Григорий Демин... in Python для анализа данных

Зачем, если есть специальная функция для этого распределения?

Зачем аппроксимировать данные распределением, если можно получить квантиль сразу на реальных данных?

источник

21:41пожаловаться #6

VM

Valerii Mamontov in Python для анализа данных

Привет! Есть датасет с полями: юзер айди, количество его покупок (в штуках), сумма покупок. Необходимо разделить его на 2 части так, чтобы среднее (или медианное) значение количества покупок и суммы покупок было равное в обеих группах. Подскажите, плиз, как это можно реализовать?

Можно написать алгоритм, который будет искать все возможные комбинации (сначала по столбцу с числом покупок, потом по столбцу с суммой покупок, а в конце сравнивать два списка). Таких комбинаций может и не быть.

источник

21:41пожаловаться #7

I

Igor in Python для анализа данных

Григорий Демин

Зачем аппроксимировать данные распределением, если можно получить квантиль сразу на реальных данных?

Вопрос был не о данных, а о распределении.

источник

21:44пожаловаться #8

ГД

Григорий Демин... in Python для анализа данных

Вопрос был не о данных, а о распределении.

>У меня стоит задача подсчитать интервал возвращения клиента в магазин.

Квантиль как раз и даёт этот интервал без предположений распределении

источник

21:46пожаловаться #9

I

Igor in Python для анализа данных

Григорий Демин

Зачем аппроксимировать данные распределением, если можно получить квантиль сразу на реальных данных?

Так же, если есть предположение о том что случайная величина генерируется каки бы то ни было распределением, то понимание такого распределение даёт возможность понимать генерируются последующие величины этим же распределением или нет.

источник

21:47пожаловаться #10

VR

Vasily Rozhkov in Python для анализа данных

Кирилл Дмитриевич

А как построить доверительные интервалы для гамма-распределения? Гуглю, но ничего не понимаю

можно бустрэп пользовать для перехода к нормальному распределению для оценки ошибки среднего. оттуда и интервалы построить. напрямую выводить это будет жесть - весьма нетривиально

источник

21:50пожаловаться #11

ГД

Григорий Демин... in Python для анализа данных

Так же, если есть предположение о том что случайная величина генерируется каки бы то ни было распределением, то понимание такого распределение даёт возможность понимать генерируются последующие величины этим же распределением или нет.

Проще разбить на трейн и тест и убедиться что и там и там 95% квантиль одинаковый

источник

21:57пожаловаться #12

I

Igor in Python для анализа данных

Григорий Демин

>У меня стоит задача подсчитать интервал возвращения клиента в магазин.

Квантиль как раз и даёт этот интервал без предположений распределении

Я не увидел что это по той же задаче. Здесь простая квантильная оценка вообще ни к чему, поскольку нельзя будет смоделировать поведение покупателей в будущем. Что даст информация, что сейчас 95% процентов покупателей возвращаются в период от 5 до 30 дней? Как смоделировать поведение в будущем? Как оценить вероятность того что покупатель вернётся через n дней? Как, если уж на то пошло, вообще оценить интервал для несимметричного распределение простым квантильным методом - в таком случае уже нужно думать или использовать HDI, или обрезать правый хвост, или симметрично.

источник

22:02пожаловаться #13

ГД

Григорий Демин... in Python для анализа данных

Я не увидел что это по той же задаче. Здесь простая квантильная оценка вообще ни к чему, поскольку нельзя будет смоделировать поведение покупателей в будущем. Что даст информация, что сейчас 95% процентов покупателей возвращаются в период от 5 до 30 дней? Как смоделировать поведение в будущем? Как оценить вероятность того что покупатель вернётся через n дней? Как, если уж на то пошло, вообще оценить интервал для несимметричного распределение простым квантильным методом - в таком случае уже нужно думать или использовать HDI, или обрезать правый хвост, или симметрично.

Меняется ли поведение покупателя в будущем - это совсем другой вопрос, распределение на него не ответит. Скорее уж quantile regression от тренда

источник

22:05пожаловаться #14

I

Igor in Python для анализа данных

Да - можно бутстреп. Но если есть возможность оценить аналитическую формулу, то зачем искажать данные?

источник

22:05пожаловаться #15

VR

Vasily Rozhkov in Python для анализа данных

Да - можно бутстреп. Но если есть возможность оценить аналитическую формулу, то зачем искажать данные?

это для ленивых )

источник

22:05пожаловаться #16

I

Igor in Python для анализа данных

Vasily Rozhkov

это для ленивых )

Тогда можно))

источник

22:06пожаловаться #17

I

Igor in Python для анализа данных

Григорий Демин

Меняется ли поведение покупателя в будущем - это совсем другой вопрос, распределение на него не ответит. Скорее уж quantile regression от тренда

Вот как-то сомневаюсь))) Такие величины моделируются больше с помощью GLM, для которых распределение, генерирующие случайную величину важно)

источник

22:10пожаловаться #18

BP

Bogdan Pilyavets in Python для анализа данных

Справедливости ради, доверительный интервал для квантиля вполне себе и без бутстрэпа, и без предположения о распределении популяции строится, потому что количество иксов меньших, чем номер квантиля распределено биномиально

источник

22:12пожаловаться #19

ГД

Григорий Демин... in Python для анализа данных

Вот как-то сомневаюсь))) Такие величины моделируются больше с помощью GLM, для которых распределение, генерирующие случайную величину важно)

Если там двадцать точек или около того, то подход с аппроксимацией распределением имеет право на жизнь. Если сотни и тысячи точек, то какой смысл? Все можно рассчитать и проверить без всяких дополнительных предположений

источник

22:14пожаловаться #20