Size: a a a

Machine learning

2021 February 14

V

Valery in Machine learning
Svetlana Kо
Насколько критично оперативка 16? Понятно, что чем больше тем лучше, 8 будет рабочим вариантом?
Да, если планы не кагглить на локалке))
источник

SK

Svetlana Kо in Machine learning
Спасибо за подсказки и пользу))!
источник

ЕО

Егор Овчинников... in Machine learning
Всем привет! Поправьте пожалуйста, если я не правильно понимаю... Feature selection показывает важные признаки,  уменьшение размерности(например PCA) "ищет возможность объединения схожей информации" в разных признаках, за счет чего уменьшается размерность.
источник

IK

Ivan Krokhalyov in Machine learning
все верно. feature selection - это всевозможные способы сконструировать новый, меньший набор признаков, минимально потеряв при этом в информации.
источник

IK

Ivan Krokhalyov in Machine learning
Например просто отобрать половину из тех что есть. Или сделать линейные комбинации старых признаков(PCA). Новых признаков будет меньше, и они будут называться главными компонентами.
источник

i

igor in Machine learning
Ivan Krokhalyov
все верно. feature selection - это всевозможные способы сконструировать новый, меньший набор признаков, минимально потеряв при этом в информации.
Какую информацию?
источник

ЕО

Егор Овчинников... in Machine learning
Я в одной из книг прочитал что-то вроде  "указываем необходимый уровень дисперсии и на выходе получаем минимальное количество признаков описывающих эту дисперсию"... Так это разве не отбор признаков?😖🔫
источник

А

Артем in Machine learning
Vladislav-kun
Процессор... не советую новые Маки на М1, они производительные, но Докера там вроде как нет и не факт что будет
На М1 вроде бы уже запустили докер и он вполне успешно рвёт по автономности. Опять же TensorFlow вроде бы как там тоже быстрее работает. Ну и немаловажно что система стабильная, но при этом почти полноценный Линкс
источник

IK

Ivan Krokhalyov in Machine learning
Егор Овчинников
Я в одной из книг прочитал что-то вроде  "указываем необходимый уровень дисперсии и на выходе получаем минимальное количество признаков описывающих эту дисперсию"... Так это разве не отбор признаков?😖🔫
ну в частности метод главных компонент - строит одну за одной компоненты, таким образом чтобы они имели максимальную дисперсию. Будем строить их до тех пор пока суммарная дисперсия полученных компонент не превысит нужный вам уровень дисперсии. Ну обычно это называют скорее понижением размерности, чем отбором признаков
источник

ЕО

Егор Овчинников... in Machine learning
Ivan Krokhalyov
ну в частности метод главных компонент - строит одну за одной компоненты, таким образом чтобы они имели максимальную дисперсию. Будем строить их до тех пор пока суммарная дисперсия полученных компонент не превысит нужный вам уровень дисперсии. Ну обычно это называют скорее понижением размерности, чем отбором признаков
То есть, мы сначала отбираем важные признаки(избавились от хлама) и затем на основании их работаем с PCA, верно?
источник

IK

Ivan Krokhalyov in Machine learning
нет. PCA работает с исходными признаками
источник

IK

Ivan Krokhalyov in Machine learning
сами отбираем - это просто как другой вариант отбора признаков. можно действительно самому посмотреть дисперсию каждого , и оставить столько , чтобы суммарно покрыть необходимый уровень дисперсии
источник

ЕО

Егор Овчинников... in Machine learning
Объясню почему вожусь с этим вопросом... как человека неопытного сбила с толку вот эта статья - https://nddya.medium.com/eda-%D0%B2-%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC-%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8-%D0%BF%D1%80%D0%BE%D1%81%D1%82%D1%8B%D0%BC%D0%B8-%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D0%BC%D0%B8-%D1%87%D0%B0%D1%81%D1%82%D1%8C-2-1cc80616330

В которой после Chi2 проводят стандартизацию и PCA...
источник

DP

Dmitry Penzar in Machine learning
Ну чисто теоретичнски можно посмотреть вклад признаков в главные оси и на основе этого отобрать.
источник

ЕО

Егор Овчинников... in Machine learning
Dmitry Penzar
Ну чисто теоретичнски можно посмотреть вклад признаков в главные оси и на основе этого отобрать.
Спасибо!
источник

ЕО

Егор Овчинников... in Machine learning
Ivan Krokhalyov
нет. PCA работает с исходными признаками
Спасибо!
источник

AP

Alexander Petrenko in Machine learning
Егор Овчинников
Всем привет! Поправьте пожалуйста, если я не правильно понимаю... Feature selection показывает важные признаки,  уменьшение размерности(например PCA) "ищет возможность объединения схожей информации" в разных признаках, за счет чего уменьшается размерность.
Применительно к той задаче с каггла могу сказать, что мне понижение пространства результат не принесло. Искал корреляции, зависимость по крамеру, но самым полезным оказалось отбор признаков после обучения на градиентном бустинге по индексу джини (там может и не джини в классическом понимании, не берусь утверждать). То есть подаёшь в модель 100, 200, 300, ..., признаков и удаляешь те которые  мало внесли вклада. Потом опять запускаешь модель, отбираешь признаки и тд. Часто после такого отбора качество немного улучшается. Но я не уверен, что это универсальный и самый хороший способ, но мне помогало. Особенно когда признаков больше 500
источник

ЕО

Егор Овчинников... in Machine learning
Alexander Petrenko
Применительно к той задаче с каггла могу сказать, что мне понижение пространства результат не принесло. Искал корреляции, зависимость по крамеру, но самым полезным оказалось отбор признаков после обучения на градиентном бустинге по индексу джини (там может и не джини в классическом понимании, не берусь утверждать). То есть подаёшь в модель 100, 200, 300, ..., признаков и удаляешь те которые  мало внесли вклада. Потом опять запускаешь модель, отбираешь признаки и тд. Часто после такого отбора качество немного улучшается. Но я не уверен, что это универсальный и самый хороший способ, но мне помогало. Особенно когда признаков больше 500
Спасибо!
Я в данном вопросе больше интересуюсь общим пониманием. Не только в ключе того сета. Хочу понять, РАЗ И НАВСЕГДА, просто последовательность применения подобных методов. Я так понимаю ты просто после обучения модели смотрел feature_importances? И признаки с самыми низкими значениями удалял?
источник

i

igor in Machine learning
Есть хорошая книга feature selection max kuhn
источник

i

igor in Machine learning
Папа пакета карет на р
источник