Size: a a a

Python для анализа данных

2021 May 12

PZ

Pavel Zheltouhov in Python для анализа данных
значит должно быть что-то по аналогии
источник

sk

s k in Python для анализа данных
парсить даты как текст, потом конвертировать в даты по заданному формату - так нельзя?
источник

DZ

Daniel Zaharov in Python для анализа данных
а если pd.to_datetime() попробовать. Там однозначно можно формат задавать. Не знаю, насколько здесь конкретно поможет.
источник

DZ

Daniel Zaharov in Python для анализа данных
У меня тоже вопрос. Достаточно дурацкий и не знаю, насколько сюда, но все же... Мне надо реализовать ручками scipy.stats.chi2_contingency. Без каких-то наворотов, просто, чтобы ему можно было передать таблицу наблюдаемых и ожидаемых частот/просто два списка с ними и он мне посчитал статистику и P_value. Тест планируется использовать для биномиальных данных, будут два биномиальных распределения с параметрами 5 0,5 и 5 0,6 соответственно. Другие параметры мне там не нужны, вроде как. Вопрос, где можно найти, по каким формулам там это все считается для реализации. Я слабо понимаю, как грамотно это загуглить, много разных формул, я немного запутался, если честно. Остальное все использовать можно, надо реализовать именно сам критерий.
источник

АР

Александр Райков... in Python для анализа данных
1) считаете ожидаемые частоты
источник

АР

Александр Райков... in Python для анализа данных
2) считаете квадратическую разницу наблюдаемых и ожидаемых частот
источник

АР

Александр Райков... in Python для анализа данных
3) делите на ожидаемую частоту
источник

АР

Александр Райков... in Python для анализа данных
4) суммируете все по таблице
источник

АР

Александр Райков... in Python для анализа данных
5) запрашивайте от этого хм-квадрат распределение с нужным числом степеней свободы
источник

DZ

Daniel Zaharov in Python для анализа данных
Так, это я видел. Тогда вопрос, как определить кол-во этих степеней свободы?
источник

АР

Александр Райков... in Python для анализа данных
Количество столбцов минус 1 умножить на количество строк минус 1
источник

DZ

Daniel Zaharov in Python для анализа данных
Я правильно понимаю, что для моих данных это будет 4 тогда? И пункт 5 выдаст мне статистику, так?
источник

АР

Александр Райков... in Python для анализа данных
Судя по вашему описанию, у вас 2 признака с 2 уровнями, то есть (2-1) х (2-1) = 1
источник

АР

Александр Райков... in Python для анализа данных
Но возможно я что-то неправильно понял
источник

DZ

Daniel Zaharov in Python для анализа данных
у меня две выборки из биномиальных распределений с параметрами 5 0,5 и 5 0,6. Соответственно, частот у меня будет 6. Два столбца, наблюдаемые/ожидаемые частоты. Вроде все в таблице.
источник

DZ

Daniel Zaharov in Python для анализа данных
Будет проведено два теста:
1) сгенерированы две выборки из биномиального распределения с параметрами 5 0,5. После передачи в функцию он должен выдать соответствие.
2) будут сгенерированы две выборки из двух биномиальных распределений: 5, 05 и 5,06 параметры. Тест должен показать, что они пренадлежат разным распределениям.

ну и выдать еще P-value.
источник

DZ

Daniel Zaharov in Python для анализа данных
В функцию можно сразу подать частоты. Собственно, так и планировалось.
источник

АР

Александр Райков... in Python для анализа данных
1) первое, насколько я понимаю, хи-квадрат точного попадания, а не ассоциативный
источник

АР

Александр Райков... in Python для анализа данных
Chi-square goodness-of-fit с 5 степенями свободы (есть 6 исходов, степеней свободы на 1 меньше)
источник

DZ

Daniel Zaharov in Python для анализа данных
Мне кажется, тут и то и другое можно использовать. Собственно, мы забываем после генерации, что это две выборки из одного распределения.
источник