Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2020 August 19

MC

Maxim Cheparin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
можешь, конечно, перед отсевом попробовать все признаки нормализовать, чтобы feature importance лучше считалось (не знаю, как считается, для лин регр нужно, для логрег с регуляризацией нет)

ну, кодировки там поделать
источник

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кирилл Чертоганов
Ребят, как делать EDA анализ если много признаков (сотни и больше)?
Пройдитесь сначала каким-нибудь Борутой, если время есть. Он выкинет все ненужные признаки довольно неплохо. А потом уже EDA и всё остальное.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
небольшой вопрос относительно CNN:
XW=Z
если Х это тензор, измерение которого (3,10,10) - 3 channels, each channel a matrix (10,10) (i.e image), каких измерений тензор W ?
Правильно ли думать о конволюции в данном случае, как о произведение XW=Z, где W по сути 4-ых мерный тензор, где первое измерение это количество фильтров (w1, w2, ..., w_n, например в данном случае случае n=2), или произведение тензоров это не так математически ?
Можете написать любые легальные значения для измерений тензора W и Z в данном случае для понимания ?

И кстати на данном рисунке берется кусочек, это типо batch-a всего датасэта, это на практике картинка, или несколько картинок или какой-то участок одной из картинок (которые сеть, в данном случае пусть будет один лаер учиться распознавать) ?
То есть процесс конволюции примерно такой:
Проходим по всем таким батчам, умножаем на четырех-мерный тензор, то есть set наших фильтров, получаем для каждого "батча" аутпут из того-же количества как и фильтров (это количество hyperparameter)
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Евгений Томилов
Пройдитесь сначала каким-нибудь Борутой, если время есть. Он выкинет все ненужные признаки довольно неплохо. А потом уже EDA и всё остальное.
Спасибо
источник

АБ

Александр Беляев... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кирилл Чертоганов
Т. е. сначала уменьшить количество признаков , а потом делать EDA ? Так что ли ?
Я просто думал сначала eda делать, потом фичи отбирать, потом модель строить запускать ...
Можете еще с помощью алгоритма Фаррара-Глобера убрать мультиколлинеарные признаки.
Еще вариант попробовать уменьшить размерность с помощью метода главных компонент.
Также попробуйте использовать алгоритм AddDel для отбора признаков. Там есть несколько подходов: удаление признаков из всех доступных, добавление признаков из списка существующих, и комбинированные. Комбинированные показывают результат лучше.
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Maxim Cheparin
можешь, конечно, перед отсевом попробовать все признаки нормализовать, чтобы feature importance лучше считалось (не знаю, как считается, для лин регр нужно, для логрег с регуляризацией нет)

ну, кодировки там поделать
Спасибо
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Александр Беляев
Можете еще с помощью алгоритма Фаррара-Глобера убрать мультиколлинеарные признаки.
Еще вариант попробовать уменьшить размерность с помощью метода главных компонент.
Также попробуйте использовать алгоритм AddDel для отбора признаков. Там есть несколько подходов: удаление признаков из всех доступных, добавление признаков из списка существующих, и комбинированные. Комбинированные показывают результат лучше.
Спасибо )
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Anastasia Kriuchkovska
А чего гонит? Всё ок. У тебя диапазон данных прост большой (0-8000+) и среднеквадратичная ошибка поэтому составляет около 200 ед. Зато значение оценки R2 достаточно хорошее
Спасибо
источник
2020 August 20

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
вот например в первом случае.
измерение зеленой матрицы может получиться больше чем измерение синей ?
без страйда и без паддинга ?
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
и второй вопрос, на практике обычно выделяемая область инпута будет например целостной картинкой (например распознавание картинок), нет особого смысла брать пол картинки или полтора картинки, в терминологии inputs = dataset, например в задаче по классификации картинок ?
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
я понимаю, что тут обобщение и неважно какой инпут, это понятно, но например в контексте домейна распознавания картинок где датасет это пусть 10000 картинок.
источник

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
вот например в первом случае.
измерение зеленой матрицы может получиться больше чем измерение синей ?
без страйда и без паддинга ?
Есть же формула для размера
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Evgenii Zheltonozhskii🇮🇱
Есть же формула для размера
у меня в голове несколько вариантов того, что имеется ввиду под формулой для размера, о какой формуле идет речь ?
источник

DD

Dima Dzundza in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
у меня в голове несколько вариантов того, что имеется ввиду под формулой для размера, о какой формуле идет речь ?
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ребят можно ли брать notebook из kaggle для своей работы? Если какие то правила насчет авторских прав?
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Нашел notebook который почти решает мою задачу. Хочу скачать и немного переделать
источник

RS

Ravil Sagatdinov in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Kamoliddin
Ребят можно ли брать notebook из kaggle для своей работы? Если какие то правила насчет авторских прав?
некоторым не очень нравится это и на мой взгляд хорошим тоном является дать ссылку на автора, ну и зависит от того как много и насколько ты там все переделаешь
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ravil Sagatdinov
некоторым не очень нравится это и на мой взгляд хорошим тоном является дать ссылку на автора, ну и зависит от того как много и насколько ты там все переделаешь
ок лучше дам ссылку на автора
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
я про https://www.kaggle.com/eraaz1/a-comprehensive-guide-to-advanced-regression. Сам notebook является как tutorial
источник

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
у меня в голове несколько вариантов того, что имеется ввиду под формулой для размера, о какой формуле идет речь ?
Ну прямо в статье из которой картинка есть формулы для размеров аутпута как функция от размеров инпута и параметров конволюции
источник