Телеграмм чат группы pydata

Подскажите , если используешь случайный лес для классификации . Построил модель . Хочешь сделать прогноз на основании конкретные значения переменных . Если значения которые ты задаёшь , нет в твоих исходных данных и более того они сильно отличаются , например очень большие , то будет ли точный прогноз ?

источник

12:16пожаловаться #4

Ss505 in Python для анализа данных

Например нашёл кейс простой с классификацией цветков ириса

источник

12:17пожаловаться #5

Ss505 in Python для анализа данных

Там значения длины ширины лепестков . И они там 0,5, 1, 2, 5 см

источник

12:17пожаловаться #6

Ss505 in Python для анализа данных

Такой размерности

источник

12:17пожаловаться #7

Ss505 in Python для анализа данных

А я делаю прогноз для значений 500, 1000 см например . И он не выдаёт , что относится к ирису класса 2

источник

12:18пожаловаться #8

Ss505 in Python для анализа данных

Можете об’яснить , это по умолчанию или алгоритм ищет то что ближе по значениям к реальным данным ?

источник

12:19пожаловаться #9

Makar Minchenko in Python для анализа данных

решающее дерево не подстраивается под ваши данные, если вы тренировали его на одних данных, оно не сможет сделать адекватные предсказания для данных лежащих в другом промежутке.

Решающее дерево создаёт оптимальные правила для деления данных на группы, минимизируя gini impurity в получившихся группах

Соответственно, если у вас существует правило для одних данных:
длина >1 => группа 2
Для других данных это правило не будет работать, так как у вас все значения будут попадать в одну группу (если данные в промежутке (500, 1000)), то есть это правило не приводит к делению на более однородные группы.

Если вам сильно нужно, то попробуйте стандартизировать величины, чтобы данные были сопоставимы.

но это все равно странно обучать модель на принципиально других данных

источник

12:48пожаловаться #10

Ss505 in Python для анализа данных

Просто он мне все равно выдаёт результат . Даже при других данных . Это как-то по умолчанию и ничего не значит получается ?

источник

12:58пожаловаться #11

Ss505 in Python для анализа данных

То есть если хочу делать прогноз для конкретных значений , то они должны попадать длину интервала по каждой переменной , верно ?

источник

12:59пожаловаться #12

Makar Minchenko in Python для анализа данных

ну он же по-честному прогоняет данные через правила, если вы посмотрите на recall/precision/accuracy, то дерево будет перформить едва ли лучше, чем random guess

источник

13:00пожаловаться #13

Makar Minchenko in Python для анализа данных

вам нужно добиться того, чтобы данные были сопоставимы, посмотрите на распределение и примите решение можно ли использовать модель на новых данных

источник

13:02пожаловаться #14

Ss505 in Python для анализа данных

Все, отлично ! Понял смысл

источник

13:03пожаловаться #15

Ss505 in Python для анализа данных

Спасибо !!

источник

13:03пожаловаться #16

Камушек, который тре... in Python для анализа данных

И снова дратути!)
Задание от Я.П: чтобы изменить значение исходного списка, напишите цикл с перебором по индексам ( используя For). В теле цикла прибавьте 10 к каждому элементу july_temperatures

источник

18:24пожаловаться #17

Камушек, который тре... in Python для анализа данных

Ругается🤨

источник

18:25пожаловаться #18

Оксана Лёвкина... in Python для анализа данных

Конечно, ругается. Вы в 3-х строках из 4-х допустили ошибки.

источник

18:48пожаловаться #19

Камушек, который тре... in Python для анализа данных

Теперь питон прибавил 10, но только к одному элементу, а нужно ко всем

источник

18:50пожаловаться #20