Size: a a a

Python для анализа данных

2020 December 28

МП

Максим Петров... in Python для анализа данных
огромное спасибо, больше часа искал
источник

PZ

Pavel Zheltouhov in Python для анализа данных
прикольно. недавно вышла?
я первое издание начинал и бросил  читать, потому что там 2013 год.
а стиль изложения вроде удачный.
источник
2020 December 30

КВ

Катерина Волкова... in Python для анализа данных
Пожалуйста, помогите решить задачку из книги "Думай медленно, решай бысро"
Ночью таксист совершил наезд и скрылся с места происшествия.
В городе работают две компании такси, «Зеленая» и «Синяя».
Вам представили следующие данные:
• 85 % городских такси – из «Зеленой» компании, а 15 % – из «Синей».
• Свидетель опознал такси как «Синее». Судебная экспертиза проверила надежность
свидетеля в ночных условиях и заключила, что свидетель правильно опознает каждый
из двух цветов в 80 % случаев и неправильно – в 20 % случаев.
Какова вероятность того, ч то такси, совершившее наезд, было «Синим», а не
«Зеленым»?
Правильный ответ – 41 %.
Но я никак не могу понять как его получили😭😭😭.
Что-то подобное еще дают на собесах 🙄.
Кажется решается по формуле Байеса.
источник

I

Igor in Python для анализа данных
Катерина Волкова
Пожалуйста, помогите решить задачку из книги "Думай медленно, решай бысро"
Ночью таксист совершил наезд и скрылся с места происшествия.
В городе работают две компании такси, «Зеленая» и «Синяя».
Вам представили следующие данные:
• 85 % городских такси – из «Зеленой» компании, а 15 % – из «Синей».
• Свидетель опознал такси как «Синее». Судебная экспертиза проверила надежность
свидетеля в ночных условиях и заключила, что свидетель правильно опознает каждый
из двух цветов в 80 % случаев и неправильно – в 20 % случаев.
Какова вероятность того, ч то такси, совершившее наезд, было «Синим», а не
«Зеленым»?
Правильный ответ – 41 %.
Но я никак не могу понять как его получили😭😭😭.
Что-то подобное еще дают на собесах 🙄.
Кажется решается по формуле Байеса.
Формула условной вероятности + закон полной вероятности
источник

I

Igor in Python для анализа данных
Катерина Волкова
Пожалуйста, помогите решить задачку из книги "Думай медленно, решай бысро"
Ночью таксист совершил наезд и скрылся с места происшествия.
В городе работают две компании такси, «Зеленая» и «Синяя».
Вам представили следующие данные:
• 85 % городских такси – из «Зеленой» компании, а 15 % – из «Синей».
• Свидетель опознал такси как «Синее». Судебная экспертиза проверила надежность
свидетеля в ночных условиях и заключила, что свидетель правильно опознает каждый
из двух цветов в 80 % случаев и неправильно – в 20 % случаев.
Какова вероятность того, ч то такси, совершившее наезд, было «Синим», а не
«Зеленым»?
Правильный ответ – 41 %.
Но я никак не могу понять как его получили😭😭😭.
Что-то подобное еще дают на собесах 🙄.
Кажется решается по формуле Байеса.
(0.8*0.15)/(0.8*0.15+0.2*0.85)
источник

КВ

Катерина Волкова... in Python для анализа данных
Если я правильно понимаю здесь
B - машина была синяя
E - свидетель правильно назвал фактический цвет
P(B|E) = P(B)*P(E|B)/P(E)
P(B) = 0,15 (априорная вероятность того, что машина синяя)
P(E) = (0,8*0,15 + 0,2*0,85) (вероятность того, что истинно или ложно, свидетель назвал правильно фактический цвет машины)
P(E|B) = 0,8 (априорная вероятность того, что свидетель сказал правду)
P(B|E) = 0,15*0,8/(0,8*0,15 + 0,2*0,85) = 0,41
источник

КВ

Катерина Волкова... in Python для анализа данных
Igor
(0.8*0.15)/(0.8*0.15+0.2*0.85)
Я поняла! Спасибо огромное! Теперь хоть спать спокойно буду)))
источник

SP

Stepan Patratiy in Python для анализа данных
V
Привет!

25.12 будет проходить бесплатный онлайн-воркшоп по применению методов классификации тональности текста.

Присоединяйтесь!

https://maike.ai/workshop2020
@Wufufah  а запись есть?
источник

V

V in Python для анализа данных
Stepan Patratiy
@Wufufah  а запись есть?
источник
2020 December 31

YP

Yuriy Prudnikov in Python для анализа данных
Салют
Надо понять, как определенный фактор влияет на метрику. Проблема в том, что когда я разбиваю пользователей на 2 группы (исследуемый фактор = 0 и 1), то они нерепрезентативны по многим другим параметрам (типа возраст и т.д.),  от которых может также зависеть исследуемая метрика. Если смотреть разницу внутри каждой группы отдельно (например, брать только тех, кому меньше 20 лет, потом от 20 до 25 и т.д.), то не хватает данных для стат. значимости. Что с этим делать? Сейчас смотрю в сторону постстратификации, это верный подход?
Кстати, группы с фактором 1 и 0 имеют разный размер. Одна из них составляет 15%, другая 85%.
источник

KM

Konstantin Mohov in Python для анализа данных
Это пролито анализ ? Или ты хочешь понять влияние факторов на результат модели после обучения ?
источник

YP

Yuriy Prudnikov in Python для анализа данных
Просто анализ. Уже есть данные, и надо понять, сколько денег мы потеряли из за этого фактора.
источник
2021 January 02

A

Andrew U. in Python для анализа данных
ВСех с наступившим! может кто-нибудь есть кто мог бы помочь (готов оплатить) разобраться с проведением дисперсионного анализа ANalysis Of VAriance (ANOVA)?
источник

A

Andrew U. in Python для анализа данных
там небольшой датасетик совсем, нужно сравнить методы
источник

s

ssv in Python для анализа данных
Andrew U.
ВСех с наступившим! может кто-нибудь есть кто мог бы помочь (готов оплатить) разобраться с проведением дисперсионного анализа ANalysis Of VAriance (ANOVA)?
Если прям совсем, то можно скачать statistica, там такое из коробки)
источник
2021 January 03

A

Andrew U. in Python для анализа данных
ssv
Если прям совсем, то можно скачать statistica, там такое из коробки)
Мне бы лучще человек так как очень ограничен по времени
источник
2021 January 04

PS

Pavel Samokhvalov in Python для анализа данных
Лови спамера
источник

DD

Denis Davydov in Python для анализа данных
Yuriy Prudnikov
Салют
Надо понять, как определенный фактор влияет на метрику. Проблема в том, что когда я разбиваю пользователей на 2 группы (исследуемый фактор = 0 и 1), то они нерепрезентативны по многим другим параметрам (типа возраст и т.д.),  от которых может также зависеть исследуемая метрика. Если смотреть разницу внутри каждой группы отдельно (например, брать только тех, кому меньше 20 лет, потом от 20 до 25 и т.д.), то не хватает данных для стат. значимости. Что с этим делать? Сейчас смотрю в сторону постстратификации, это верный подход?
Кстати, группы с фактором 1 и 0 имеют разный размер. Одна из них составляет 15%, другая 85%.
классическая задача для  ANOVA, если у вас хватит данных. Ввести в модель помимо целевой метрики и другие потенциально влияющие переменные. Смотреть предсказанную вариативность - как совместную, так и отдельно для каждого фактора.
источник

DD

Denis Davydov in Python для анализа данных
Yuriy Prudnikov
Салют
Надо понять, как определенный фактор влияет на метрику. Проблема в том, что когда я разбиваю пользователей на 2 группы (исследуемый фактор = 0 и 1), то они нерепрезентативны по многим другим параметрам (типа возраст и т.д.),  от которых может также зависеть исследуемая метрика. Если смотреть разницу внутри каждой группы отдельно (например, брать только тех, кому меньше 20 лет, потом от 20 до 25 и т.д.), то не хватает данных для стат. значимости. Что с этим делать? Сейчас смотрю в сторону постстратификации, это верный подход?
Кстати, группы с фактором 1 и 0 имеют разный размер. Одна из них составляет 15%, другая 85%.
Другой, более красивый, но замороченный вариант - моделирование структурными уравнениями. Можно проверить разные схемы, где ваши дополнительные переменные будут независимыми факторами, медиаторами или модераторами. Если есть время и гипотезы - можно получить красивую модель с весами всех факторов.
источник

СИ

Сергей Ильин... in Python для анализа данных
Всем добрый вечер.
Подскажите, как лучше выгрузить данные из ноутбука (.ipynb) в пдф / хтмл?

Мне нужны не все ауты ячеек, а только избранные.

Текст бы хотел брать из маркдауна, картинки (графики) - конвертить в свг и тоже сохранять в исходном пдф
источник