Size: a a a

Python для анализа данных

2021 November 12

S

Ss505 in Python для анализа данных
Все верно ! Спасибо !
источник

S

Ss505 in Python для анализа данных
А какие ещё метрики нужно проверять , когда используешь Random Forest ? Например , я нашёл показатель accuracy. А что ещё следует проверить ?
источник

AO

Andrew Odegov in Python для анализа данных
Метрики зависят не от алгоритма, а от решаемой задачи (классификация, регрессия, кластеризация)
Если решаете титаник, можете разобраться с  f score, roc auc, gini, например
Вот хорошая статья на эту тему
https://habr.com/ru/company/ods/blog/328372/
источник

v

v in Python для анализа данных
Интересно, сколько курсы уже наварились с пересказывания первых глав любой книжки по питону?
источник

AG

Arsen Gumin in Python для анализа данных
Нажимайте shift + tab когда курсом внутри скобок в Юпитере, открывется документации интерактивно
источник

S

Ss505 in Python для анализа данных
Спасибо !!!
источник

AG

Arsen Gumin in Python для анализа данных
Я так научился пользоваться пандасом без документации в сети )
источник

S

Ss505 in Python для анализа данных
Принял во внимание :)
источник

v

v in Python для анализа данных
Немного холивара - что вам нравится больше для работы с ноутбуками - пайчарм, датаспелл, джупитерлаб?
И есть ли что-то, что позволяет напрямую подключаться к колабу?
источник

S

Ss505 in Python для анализа данных
Подскажите , ещё пожалуйста, для чего в отсутсвщих значениях возраста вставлять -0.5 . Что это даёт ? Почему не среднее или медианное ?
источник

S

Ss505 in Python для анализа данных
источник

S

Ss505 in Python для анализа данных
На kaggle нашёл этот кейс с решением
источник

К

Карась судьбы... in Python для анализа данных
Своя по всему, чтоб они потом попали в группу unknown
источник

К

Карась судьбы... in Python для анализа данных
В принципе любое отрицательное значение можно использовать.
источник

O

Orson in Python для анализа данных
Заменяют nan в датасете на заведомо невозможное значение, которое потом легко отфильтровать
источник

AO

Andrew Odegov in Python для анализа данных
Некоторые алгоритмы не умеют работать с пропущенными значениями. И их заполняют каким-то отдельным значением, чтобы пропуски вынести в отдельную категорию. Бывает, что наличие пропуска само по себе несёт информацию. Если заполнить средним или медианой, может быть не так интересно
источник

I

Igor in Python для анализа данных
Вот среднее или медианное как раз, можно сказать, наихудший вариант, поскольку добавит смещение в оценку.
источник

AG

Arsen Gumin in Python для анализа данных
Пробовал долго все, нравиться даталор
источник

AG

Arsen Gumin in Python для анализа данных
Тоже от джетбрейнс, но облачное, поприятнее колаба
источник

v

v in Python для анализа данных
Просто мне часто приходят ссылки на ноутбуки с расшаренного гугл диска, поэтому колаб удобно.
источник