Size: a a a

Python для анализа данных

2021 June 21

VK

Vova Kovardakov in Python для анализа данных
Всем привет! помогите понять как провести АВ-тест ПРАВИЛЬНО)

суть в чем, у нас есть много автобусных рейсов, некоторые рейсы длинее, в некоторых больше загрузка, мы хотим сделать динамические цены на рейсы.

Мы повышаем цену на несколько рейсов, и нам надо понять было ли изменение в загрузке статистически значимо или нет, спугнула ли цена людей.

Что я думаю пока что делать:
подождал две недели, потом беру в разрезе дней данные о загрузке на этих рейсах, потом мне надо понять с чем сравнивать, надо взять значит похожие рейсы, или лучше взять в среднем по всем рейсам и с ним сравнивать? Это первый вопрос.

Второй вопрос заключается в том чем сравнивать, у меня есть два ряда чисел, есть z-метка и есть критерий хи2, они получаются у меня разные, чему верить тогда в итоге? или я не имею права сравнивать два ряда этих чисел?

Третий вопрос две недели вообще достаточно?)
источник

VK

Vova Kovardakov in Python для анализа данных
еще есть критерий манна уитни чтобы проверять статистическую значимость, причем распределение не должно бы нормальным по-моему тоже подходит для моей задачки
источник

АР

Александр Райков... in Python для анализа данных
Хи-квадрат вряд ли подходит к задаче, он для категориалтных данных
источник

АР

Александр Райков... in Python для анализа данных
Загрузка (в людях?) - явно метрическая величина
источник

АР

Александр Райков... in Python для анализа данных
Не понял, что такое z в данном контексте. Манн-Уитни может подойти при сравнении 2 выборок
источник

АР

Александр Райков... in Python для анализа данных
Если выборки связанные (сравнение рейса с самим собой в разные моменты времени), то лучше Уилкоксон
источник

VK

Vova Kovardakov in Python для анализа данных
точно, вот я и запутался, у нас же нет количества не пришедших, чтобы замерить количество испытаний так бы мы могли сделать пришел/не пришел, а так все не так, буду использовать манна уитни,спасибо!

я могу вообще сравнивать и в разные периоды один рейс, а могу в один период сравнивать похожие рейсы, например по району, длине пути и загрузке, как думаете лучше? или может два решения попробовать и если они совпадут то есть надежда на верный вывод?) сезонность все таки явная присутствует в данных начало лета, переломный момент, люди начинают ехать купаться или едут на отдых и маршрут до вокзала начинает в этот момент меняться, к примеру
источник

АР

Александр Райков... in Python для анализа данных
Я пока ещё не уверен, что мы о правильных методах говорим. Как вообще выглядят данные по первому и второму условию?
источник

A

Alex in Python для анализа данных
Ребята, что скажете про такой инструмент мониторинга дата-пайплайнов? https://habr.com/ru/post/562520/
источник

PZ

Pavel Zheltouhov in Python для анализа данных
не вполне ясна "научная новизна". какую насущную проблему проблему стоящую перед  Коллективным Опенсорсным, эта программа решает?
источник
2021 June 22

АА

Алина Алексеева... in Python для анализа данных
Привет, всем
Ищу специалиста, на полный рабочий день, который будет в Tableau настраивать отчеты для внутренних заказчиков. Контролировать качество, актуальность и полноту данных, получаемых из информационных систем, для целей составления управленческой отчетности и анализа.

Требования
- знаете SQL и знаете любой скриптовый язык программирования, желательны знания статистики и анализа

Пишите мне в личку @Alina2021AA
Всем хорошего дня ☀️
источник
2021 June 23

А

Алексей in Python для анализа данных
народ, кто юзает Prophet? Не совсем понимаю, как предсказывать продажи с учетом особых периодов. Допустим у меня есть датасет, где у каждой даты есть признак (проходила акция со скидкой на товар или нет). Я запихиваю эти данных в holidays. Затем формирую период, на который хочу предсказать показатели. Но ведь там просто даты, как их можно разметить, что акция со скидкой будет запланирована?
источник

ВК

Владимир Калинин... in Python для анализа данных
У мастицкого в блоге смотрели?
источник

А

Алексей in Python для анализа данных
неа
источник

А

Алексей in Python для анализа данных
я так понимаю, что нужно в сторону регрессоров копать
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Похоже, единственный вариант воздействия там - установка changepoint. Но в вашей формулировке как-то непохоже на changepoint.
Регрессор - это как бы масштабирование акций до нормы?
источник

А

Алексей in Python для анализа данных
насколько я понял, регрессор это некий признак привязанный к дате, который должен быть и в fit и в предикт.
источник
2021 June 24

AD

Alexander Dergilev in Python для анализа данных
Коллеги, всем привет. Читаю данные из икселя и пытаюсь записать в SQL при помощи pandas. Заголовки - кирилица. При при чтении датафрейма - все корректно отображается. Как только пытаюсь записать данные to_sql - возникает ошибка
ProgrammingError: (pymssql.ProgrammingError) (102, b"Incorrect syntax near '('.DB-Lib error message 20018, severity 15:\nGeneral SQL Server error: Check messages from the SQL Server\n")
[SQL: INSERT INTO test_contracts ([Код товара], [Наименование товара], [Юрлицо], [Поставщик], [Код аптеки], [Адрес аптеки], [ИНН], [Закупки (ед)], [Закупки (руб)], [Закупки (цена)], [Дата], [Сеть], [Регион]) VALUES (%(Код товара)s, %(Наименование товара)s, %(Юрлицо)s, %(Поставщик)s, %(Код аптеки)s, %(Адрес аптеки)s, %(ИНН)s, %(Закупки (ед))s, %(Закупки (руб))s, %(Закупки (цена))s, %(Дата)s, %(Сеть)s, %(Регион)s)]
[parameters: ({'\u041a\u043e\u0434 \u0442\u043e\u0432\u0430\u0440\u0430': 1000316863,
источник

AD

Alexander Dergilev in Python для анализа данных
если просто пытаюсь прочитать первый заголовок из ошибки

a = '\u041a\u043e\u0434 \u0442\u043e\u0432\u0430\u0440\u0430'
a
'Код товара'
источник

AD

Alexander Dergilev in Python для анализа данных
получаю корректный результат. Кто сталкивался подскажите
источник