Size: a a a

Machine learning

2020 April 28

D

Dmitry in Machine learning
под вечер уже мозги не варят
источник
2020 April 29

D

Dmitry in Machine learning
кстати, насколько часто в практическом ML\DL встречается тестирование статистических гипотез? Тест Стьюдента, chi-тест? Доверительный интервал?
источник

AA

Ali Abdullaev in Machine learning
Dmitry
кстати, насколько часто в практическом ML\DL встречается тестирование статистических гипотез? Тест Стьюдента, chi-тест? Доверительный интервал?
часто, даже очень
никакая модель в прод не идет без проверки стат значимости
источник

D

Dmitry in Machine learning
спасибо
источник

₽₽₽ in Machine learning
Народ, нужен совет
В универе изучаем Rapidminer - стоит ли углубляться в него или лучше больше времени уделить пайтону?
источник

AR

Anton Rogozin in Machine learning
Скажу так, если хочешь прокачаться в ML, лучше знать две вещи: питон, как один из основных языков для ML, и основы того, как работают методы ML в духе лин моделей, град бустинга, случайных лесов, нейронок на минималках
источник

AR

Anton Rogozin in Machine learning
Rapidminer - лишь инструмент, самое важное - понимать, как работают методы ML
источник

ОК

Оля Криволейко in Machine learning
кто-нибудь знает, можно ли восстановить пропущенные значения в данных с помощью какой-либо модель, если отсутствует целевой признак?
источник

N

Nika in Machine learning
Оля Криволейко
кто-нибудь знает, можно ли восстановить пропущенные значения в данных с помощью какой-либо модель, если отсутствует целевой признак?
ну, если уж на то пошло то отдельные признаки можно сделать целевыми) почему бы и нет) а  вообще пропуски по признакам обрабатывают по разному в заисимости от задачи: от просто подстановки среднего до попросу дропа незаполненных даннных
источник

N

Nika in Machine learning
Dmitry
кстати, насколько часто в практическом ML\DL встречается тестирование статистических гипотез? Тест Стьюдента, chi-тест? Доверительный интервал?
а еще часто под  ML подпихивают задачи, связанные с аналитикой.  А там это вообще все естественно
источник

MM

Mira Mironova in Machine learning
Ali Abdullaev
@Mirileen В курсе data-analysis-applications пожалуйста уберите вообще неделю с анализом изображения, лучше неделю потратить на чтение книги глубинное обучение, где это все расписано в разы лучше, хотя и там уже что-то устарело. Я впервые за специализацию не хочу закрывать курс и отменяю подписку.
Спасибо, что поделились своими впечатлениями. Материалы курса всеми воспринимаются по-разному, и возможно, кому-то даются сложнее, а кому-то проще. Где-то, соглашусь, тема раскрывается сложно.

Если у вас есть какие-то предложения по добавлению дополнительных материалов, будем рады вариантам.
источник

AR

Anton Rogozin in Machine learning
@Mirileen Поддерживаю по анализу изображений (как лекции, так и дз) в пятом курсе. Лекции были больше обзорными (не хватило тонкостей, нейронок и объяснений), они не очень соответствуют стандартам лекций, которые были на специализации ранее. Задание является устаревшим - обновлённые библиотеки работают совсем по другому, из-за чего ответы получаются совсем другими и ты больше времени тратишь на откат библиотек и поиск необходимых версий. Задание стоит обновить. По анализу изображений слышал, что хвалят этот курс - https://stepik.org/course/Нейронные-сети-и-компьютерное-зрение-50352/

P. S. У пятого курса среди всех курсов специализации самая низкая оценка - она может быть связана как раз с анализом изображений)
источник

I

Ibp in Machine learning
Оля Криволейко
кто-нибудь знает, можно ли восстановить пропущенные значения в данных с помощью какой-либо модель, если отсутствует целевой признак?
в дополнение к уже сказаному: если пропусков больше 50% в колонке удаляют всю колонку, если меньше 5% в колонке- строки удаляют, если данные числовые - вставляют среднее, если числовые в timeseries - среднее за предыдущий период, если категориальные - можно вставить наиболее часто встречающуюся категорию, если много категорий суммарное кол во, которых меньше 5% от остальных, все эти категории можно обьединить в отдельную категорию: "другие".
источник

y

yithian in Machine learning
Насчёт удаление строк при 5% пропусках - спорно. От датасета зависит сильно.
источник

I

Ibp in Machine learning
какая зависимость?
источник

y

yithian in Machine learning
Ну вот есть датасет, скажет, 10000х100. И во всех фичах по 5% пропусков для случайных строк. Удаляя такие строки мы можем весь датасет ненароком дропнуть.)
источник

MM

Mira Mironova in Machine learning
Anton Rogozin
@Mirileen Поддерживаю по анализу изображений (как лекции, так и дз) в пятом курсе. Лекции были больше обзорными (не хватило тонкостей, нейронок и объяснений), они не очень соответствуют стандартам лекций, которые были на специализации ранее. Задание является устаревшим - обновлённые библиотеки работают совсем по другому, из-за чего ответы получаются совсем другими и ты больше времени тратишь на откат библиотек и поиск необходимых версий. Задание стоит обновить. По анализу изображений слышал, что хвалят этот курс - https://stepik.org/course/Нейронные-сети-и-компьютерное-зрение-50352/

P. S. У пятого курса среди всех курсов специализации самая низкая оценка - она может быть связана как раз с анализом изображений)
Спасибо. Подумаем, что можно сделать
источник

JG

John Gosling in Machine learning
yithian
Ну вот есть датасет, скажет, 10000х100. И во всех фичах по 5% пропусков для случайных строк. Удаляя такие строки мы можем весь датасет ненароком дропнуть.)
Да если даже по 1%, но для разных строк пропущено
источник

I

Ibp in Machine learning
это какието специальные, не нормально распределенные датасеты:) посчитайте сами вероятность такокого исхода:)
источник

y

yithian in Machine learning
Ibp
это какието специальные, не нормально распределенные датасеты:) посчитайте сами вероятность такокого исхода:)
И не такие сеты в природе встречаются.) Например, если вы работаете с каким-то историческими данными, которые в какой-нибудь компании Х менялись-добавлялись годами или не слишком качественно агрегировались.
источник