Size: a a a

AI / Big Data / Machine Learning

2020 April 24

IL

Ivan Landgraf in AI / Big Data / Machine Learning
Друзья, не совсем по теме. В институте нам дали задание по мл. Develop a machine learning model for explicit content detection on a web page. Кому интересно помочь мне в этом (не за бесплатно) пишите в лс. Задание достаточно интересное (классифицировать что порно-запрос, а что нет😁) проходит в форме соревнования на лучшую модель в каггле. Все критерии (кому инетересно) расскажу в лс.
источник

AF

Adam Fox in AI / Big Data / Machine Learning
Всем привет, может кто посоветовать обзор ML-подходов в задачах типа SLAM, MVG, 6DoF pose estimation?
источник
2020 April 25

U

Ugly in AI / Big Data / Machine Learning
/report
источник

U

Ugly in AI / Big Data / Machine Learning
или как тут репортить
источник

D•

Dan • Captain in AI / Big Data / Machine Learning
Все правильно, так и надо :)
источник

Z

ZveroBoy in AI / Big Data / Machine Learning
теперь интересно что там было
источник

D•

Dan • Captain in AI / Big Data / Machine Learning
ZveroBoy
теперь интересно что там было
Взлом вк за деньги :)
источник

Z

ZveroBoy in AI / Big Data / Machine Learning
лол
источник

D•

Dan • Captain in AI / Big Data / Machine Learning
Нет, просто так не надо :)
источник
2020 April 26

АК

Андрей Копылов in AI / Big Data / Machine Learning
Ребят, подскажите. LSTM можно же обучить на небольшом наборе данных, а потом модель загружать и дообучать такими же небольшими наборами данных? Никаких подводных камней нет?
источник

АК

Андрей Копылов in AI / Big Data / Machine Learning
Иными словами не будет ли отличаться результат работы, если дообучать частями от того, если сразу на всём наборе обучить?
источник

I

Ilya in AI / Big Data / Machine Learning
Вопрос на счет feature selection, теоретически нам рассказывали, что если есть фичеры, у которых корреляция высокая, например я взял 0.93, то можно один из них убрать.

С другой стороны, чисто для проверки, я проверил какая точность при использование только одного, потом двух, трех и четырех фичеров, которые ранее в процессе показали такую корреляцию.

Более чем это, я сделал Exhaustive Feature Selector на эти четыре фичера (и только на них, из изначально где то сорока), и по обоим экспериментам получил, что все же выбор нескольких только из них дает лучшие результаты, чем оставить только один из этого сета коррелирующих.

Чем это объясняется ? Тем что я оставил только 4 фичера из всех, и возможно при таком малом количестве информации, любая дополнительная информация повышает точность предсказания ?

Или все же лучше не искать вручную такие высоко-коррелирующие фичеры и дать самим алгоритмам выбирать самые лучшие фичеры ?
источник

u

undiabler in AI / Big Data / Machine Learning
Если это не производные друг от друга фичи, а разные по существу просто коррелирующие друг с другом - лучше оставлять данные.
Большое количество коррелирующих фич просто приведет вас к быстрому оверфит результату. Если такого не происходит и вы успешно боретесь с оверфитом то ничего страшного в большом количестве фич нету.
источник

I

Ilya in AI / Big Data / Machine Learning
undiabler
Если это не производные друг от друга фичи, а разные по существу просто коррелирующие друг с другом - лучше оставлять данные.
Большое количество коррелирующих фич просто приведет вас к быстрому оверфит результату. Если такого не происходит и вы успешно боретесь с оверфитом то ничего страшного в большом количестве фич нету.
а оверфит смотрится по проверки точности по тесту ?
То есть если норм результат, то оверфита нет ?

Кстати, в целом, точность с убиранием и без убирания получилась одинаковая.

Просто этот эксперимент с локальным сетом высоко коррелирующих фичеров заставил задуматься.
источник

I

Ilya in AI / Big Data / Machine Learning
и вытекающий вопрос исходя из этого, убирать ли вообще вручную такие высоко коррелирующие, или дать алгоритмам полностью контроль ?
То есть если там KNN и деревья сочтут их полезными, даже если я вручную видел, что они высоко коррелирующие, то оставлять
источник

u

undiabler in AI / Big Data / Machine Learning
Ilya
а оверфит смотрится по проверки точности по тесту ?
То есть если норм результат, то оверфита нет ?

Кстати, в целом, точность с убиранием и без убирания получилась одинаковая.

Просто этот эксперимент с локальным сетом высоко коррелирующих фичеров заставил задуматься.
Да, все верно. Если на валидации точность/лосс ведет себя таким же образом как и на тренеровочном датасете тогда все ок. Если быстро начинает расползаться в разные стороны тогда все плохо и надо дальше работать с подготовкой базы.
источник

u

undiabler in AI / Big Data / Machine Learning
Мой опыт - не убирать все что может быть полезным.
Убирать только в случае если у вас какая-то сложная архитектура самой сети и нужно сократить данные, или если есть проблемы с обучением. Только тогда пересмотр фичей и выборка что подрезать.
Для knn, svm, деревьев как раз проще оценить влияние фичи.
В случае если у вас какой-нибудь cnn или lstm модель оценить влияние отдельных фич достаточно сложно и оценка делается общего результата модели, а лишние данные обычно не убираются.
источник

I

Ilya in AI / Big Data / Machine Learning
понял, спасибо, наверное так и сделаю, максимум в отчете опишу, что есть такие то и такие то связи, и такая то точность если без таких то и таких то фичов.
источник

EZ

Evgeniy Zheltonozhskiy🇮🇱 in AI / Big Data / Machine Learning
Андрей Копылов
Иными словами не будет ли отличаться результат работы, если дообучать частями от того, если сразу на всём наборе обучить?
Будет офк
источник

АК

Андрей Копылов in AI / Big Data / Machine Learning
Спасибо
источник