Size: a a a

Python для анализа данных

2021 November 12

S

Ss505 in Python для анализа данных
По поводу nan понял теперь да ! Если присвоить реальные возраста , то потом тяжело будет фильтровать
источник

S

Ss505 in Python для анализа данных
Спасибо всем за полезную инфу !
источник
2021 November 13

VM

Valerii Mamontov in Python для анализа данных
Привет. Можно вот так
источник

S

Ss505 in Python для анализа данных
Подскажите , если используешь случайный лес для классификации . Построил модель . Хочешь сделать прогноз на основании конкретные значения переменных . Если значения которые ты задаёшь , нет в твоих исходных данных и более того они сильно отличаются , например очень большие , то будет ли точный прогноз ?
источник

S

Ss505 in Python для анализа данных
Например нашёл кейс простой с классификацией цветков ириса
источник

S

Ss505 in Python для анализа данных
Там значения длины ширины лепестков . И они там 0,5, 1, 2, 5 см
источник

S

Ss505 in Python для анализа данных
Такой размерности
источник

S

Ss505 in Python для анализа данных
А я делаю прогноз для значений 500, 1000 см например . И он не выдаёт , что относится к ирису класса 2
источник

S

Ss505 in Python для анализа данных
Можете об’яснить , это по умолчанию или алгоритм ищет то что ближе по значениям к реальным данным ?
источник

MM

Makar Minchenko in Python для анализа данных
решающее дерево не подстраивается под ваши данные, если вы тренировали его на одних данных, оно не сможет сделать адекватные предсказания для данных лежащих в другом промежутке.

Решающее дерево создаёт оптимальные правила для деления данных на группы, минимизируя gini impurity в получившихся группах

Соответственно, если у вас существует правило для одних данных:
длина >1 => группа 2
Для других данных это правило не будет работать, так как у вас все значения будут попадать в одну группу (если данные в промежутке (500, 1000)), то есть это правило не приводит к делению на более однородные группы.

Если вам сильно нужно, то попробуйте стандартизировать величины, чтобы данные были сопоставимы.

но это все равно странно обучать модель на принципиально других данных
источник

S

Ss505 in Python для анализа данных
Просто он мне все равно выдаёт результат . Даже при других данных . Это как-то по умолчанию и ничего не значит получается ?
источник

S

Ss505 in Python для анализа данных
То есть если хочу делать прогноз для конкретных значений , то они должны попадать длину интервала по каждой переменной , верно ?
источник

MM

Makar Minchenko in Python для анализа данных
ну он же  по-честному прогоняет данные через правила, если вы посмотрите на recall/precision/accuracy, то дерево будет перформить едва ли лучше, чем random guess
источник

MM

Makar Minchenko in Python для анализа данных
вам нужно добиться того, чтобы данные были сопоставимы, посмотрите на распределение и примите решение можно ли использовать модель на новых данных
источник

S

Ss505 in Python для анализа данных
Все, отлично ! Понял смысл
источник

S

Ss505 in Python для анализа данных
Спасибо !!
источник

К

Камушек, который тре... in Python для анализа данных
И снова дратути!)
Задание от Я.П: чтобы изменить значение исходного списка, напишите цикл с перебором по индексам ( используя For). В теле цикла прибавьте 10 к каждому элементу july_temperatures
источник

К

Камушек, который тре... in Python для анализа данных
Ругается🤨
источник

О

Оксана Лёвкина... in Python для анализа данных
Конечно, ругается. Вы в 3-х строках из 4-х допустили ошибки.
источник

К

Камушек, который тре... in Python для анализа данных
Теперь питон прибавил 10, но только к одному элементу, а нужно ко всем
источник