Size: a a a

Python для анализа данных

2021 January 21

ИК

Игорь Кудрешов... in Python для анализа данных
о артемка
источник

JF

Jack Finch in Python для анализа данных
Добрый день, есть фактический ретеншн когорты пользователей, подскажите пожалуйста как смоделировать новую кривую ретеншена при изменение ретеншена определенного дня .Например ретеншн 7ого дня будет 50%

[https://prnt.sc/xd3dwu](https://prnt.sc/xd3dwu)
источник

СИ

Сергей Ильин... in Python для анализа данных
Гайз, кто в Плотли силен?

Можете код посмотреть - че не так?

https://pastebin.com/ksXYCjp0

раскрашивание бинов сделал функцией, которая должна

Смущает вот что:
первый месяц отрабатывает нормально (визуально на графике только два выброса), а вот начиная со второго - что-то не то. Цикл, вроде, нормальный, но не могу понять - че не так? Такое ощущение, что переменная vals не переопределяется на следующем шаге цикла, оставляет старые значения и из-за этого при сравнении со старыми данными все "краснеет"
источник

СИ

Сергей Ильин... in Python для анализа данных
Сергей Ильин
Гайз, кто в Плотли силен?

Можете код посмотреть - че не так?

https://pastebin.com/ksXYCjp0

раскрашивание бинов сделал функцией, которая должна

Смущает вот что:
первый месяц отрабатывает нормально (визуально на графике только два выброса), а вот начиная со второго - что-то не то. Цикл, вроде, нормальный, но не могу понять - че не так? Такое ощущение, что переменная vals не переопределяется на следующем шаге цикла, оставляет старые значения и из-за этого при сравнении со старыми данными все "краснеет"
источник

СИ

Сергей Ильин... in Python для анализа данных
Сергей Ильин
Гайз, кто в Плотли силен?

Можете код посмотреть - че не так?

https://pastebin.com/ksXYCjp0

раскрашивание бинов сделал функцией, которая должна

Смущает вот что:
первый месяц отрабатывает нормально (визуально на графике только два выброса), а вот начиная со второго - что-то не то. Цикл, вроде, нормальный, но не могу понять - че не так? Такое ощущение, что переменная vals не переопределяется на следующем шаге цикла, оставляет старые значения и из-за этого при сравнении со старыми данными все "краснеет"
источник

АМ

Алексей Макаров... in Python для анализа данных
Егор Воронков из Skyeng ищет себе в команду Data Analyst

Этот герой будет:
- Вместе с лидером направления планировать, что нужно сделать в первую очередь а что может подождать;
- Поддерживать свою часть ETL инфраструктуры;
- Делать запросы на SQL к нашему хранилищу;
- Анализировать полученные цифры и помогать принимать с помощью них решения;
- Задавать сложные вопросы и искать на них ответы.

Описание вакансии тут

Вопросить и откликаться можно напрямую Егору @saf_bacchus или на HH
источник

АМ

Алексей Макаров... in Python для анализа данных
Егор Воронков из Skyeng ищет себе в команду Data Engineer

Ребята ищут маэстро, который:
- Будет поддерживать и развивать инфраструктуру обработки данных. У нас точно есть какие-то данные и мы захотим каких-то новых данных, а возможно изменится формат хранения на продакшне, такое тоже нужно будет подхватывать;
- Оптимизирует работу всея потока данных Sales. Наверняка мы где-то храним данные неоптимально, а где-то неоптимально преобразуем;
- Скажет нам как нужно делать, в тех вопросах, в которых явно лучше нас понимает;
- Приблизит нас к автоматизированному выплату зарплаты. У нас много людей, которым нужно платить сколько-то денег, мы хотим как можно больше автоматизировать этот процесс.

Описание вакансии тут

Вопросить и откликаться можно напрямую Егору @saf_bacchus или на HH
источник

RF

R Fedotov in Python для анализа данных
Всем, привет! 🙂
Я новичек, поэтому обращаюсь к залу)
А может кто подсказать, на какие методы стоит обратить внимание, если хочу решить примерно такую задачу.
Есть некоторый датасет с пользователями, где есть категориальные признаки, так и числовые.
Можно сказать, что датасет Титаника.

На выходе условно хочу получить ответ, какой признак с каким весом влияет на то, что человек в итоге умрет.
Кажется, что тут можно воспользоваться логистической регресиией, но возможно есть чтоо-то более подходящее?
источник

MC

Makha Cloud in Python для анализа данных
R Fedotov
Всем, привет! 🙂
Я новичек, поэтому обращаюсь к залу)
А может кто подсказать, на какие методы стоит обратить внимание, если хочу решить примерно такую задачу.
Есть некоторый датасет с пользователями, где есть категориальные признаки, так и числовые.
Можно сказать, что датасет Титаника.

На выходе условно хочу получить ответ, какой признак с каким весом влияет на то, что человек в итоге умрет.
Кажется, что тут можно воспользоваться логистической регресиией, но возможно есть чтоо-то более подходящее?
Возможно факторный анализ
источник

PZ

Pavel Zheltouhov in Python для анализа данных
R Fedotov
Всем, привет! 🙂
Я новичек, поэтому обращаюсь к залу)
А может кто подсказать, на какие методы стоит обратить внимание, если хочу решить примерно такую задачу.
Есть некоторый датасет с пользователями, где есть категориальные признаки, так и числовые.
Можно сказать, что датасет Титаника.

На выходе условно хочу получить ответ, какой признак с каким весом влияет на то, что человек в итоге умрет.
Кажется, что тут можно воспользоваться логистической регресиией, но возможно есть чтоо-то более подходящее?
так обычно  алгоритмы позволяют показать важные предикторы или даже  имеют методы для их визуализации (lightgbm.plot_importance)
а для тех, которые не позволяют, есть куча других визуализаций.

вы сделайте логистическую регрессию сначала чтобы было с чем сравнивать.
источник

BB

Bogdan Burich in Python для анализа данных
источник

RF

R Fedotov in Python для анализа данных
Pavel Zheltouhov
так обычно  алгоритмы позволяют показать важные предикторы или даже  имеют методы для их визуализации (lightgbm.plot_importance)
а для тех, которые не позволяют, есть куча других визуализаций.

вы сделайте логистическую регрессию сначала чтобы было с чем сравнивать.
Да, с этого и начну, спасибо :)
А какие ещё варианты есть? В какую сторону можно капнуть?
источник

PZ

Pavel Zheltouhov in Python для анализа данных
R Fedotov
Да, с этого и начну, спасибо :)
А какие ещё варианты есть? В какую сторону можно капнуть?
библиотеки lime, shapley
источник

AB

Anatolii Balakiriev in Python для анализа данных
источник

M

Mikhail in Python для анализа данных
R Fedotov
Да, с этого и начну, спасибо :)
А какие ещё варианты есть? В какую сторону можно капнуть?
В стандартном sklearn random forest есть feature importances
источник

Д

Денис in Python для анализа данных
Всем привет. Че-то затупил с подсчётом количества уникальных значений при группировке. Призываю коллективный разум
источник

Д

Денис in Python для анализа данных
Пробовал вот так. Но че-то не идет. Цель - получить кол-во уникальных номеров заказов по магазинам

df.groupby('store', as_index = False)\
   .agg({'ordernum': pd.Series.nunique})
источник
2021 January 22

AK

Alex K in Python для анализа данных
привет всем
можно как-то проще из листов создать df pandas чтоб у данных из каждого листа было отдельное поле с его старым названием?
источник

МS

Мariia Smirnova in Python для анализа данных
Alex K
привет всем
можно как-то проще из листов создать df pandas чтоб у данных из каждого листа было отдельное поле с его старым названием?
Ты можешь сделать 6 столбцов с названиями типо kfc_latitude, kfc_longitude ... , если все эти листы листов преобразовать в один лист, и каждый нечетный элемент добавлять в первый столбец с широтой, а четный с долготой.  Я бы не советовала создавать датафрейм из кортежей, если это не принципиально и оптимально для твоей задачи
источник

AK

Alex K in Python для анализа данных
Мariia Smirnova
Ты можешь сделать 6 столбцов с названиями типо kfc_latitude, kfc_longitude ... , если все эти листы листов преобразовать в один лист, и каждый нечетный элемент добавлять в первый столбец с широтой, а четный с долготой.  Я бы не советовала создавать датафрейм из кортежей, если это не принципиально и оптимально для твоей задачи
тогда nan надо использовать
источник