Телеграмм чат группы datasciencecourse страница 3263

Скажу так, если хочешь прокачаться в ML, лучше знать две вещи: питон, как один из основных языков для ML, и основы того, как работают методы ML в духе лин моделей, град бустинга, случайных лесов, нейронок на минималках

источник

06:06пожаловаться #6

AR

Anton Rogozin in Machine learning

Rapidminer - лишь инструмент, самое важное - понимать, как работают методы ML

источник

06:07пожаловаться #7

ОК

Оля Криволейко in Machine learning

кто-нибудь знает, можно ли восстановить пропущенные значения в данных с помощью какой-либо модель, если отсутствует целевой признак?

источник

06:13пожаловаться #8

N

Nika in Machine learning

Оля Криволейко

кто-нибудь знает, можно ли восстановить пропущенные значения в данных с помощью какой-либо модель, если отсутствует целевой признак?

ну, если уж на то пошло то отдельные признаки можно сделать целевыми) почему бы и нет) а вообще пропуски по признакам обрабатывают по разному в заисимости от задачи: от просто подстановки среднего до попросу дропа незаполненных даннных

источник

06:18пожаловаться #9

N

Nika in Machine learning

Dmitry

кстати, насколько часто в практическом ML\DL встречается тестирование статистических гипотез? Тест Стьюдента, chi-тест? Доверительный интервал?

а еще часто под ML подпихивают задачи, связанные с аналитикой. А там это вообще все естественно

источник

06:20пожаловаться #10

MM

Mira Mironova in Machine learning

Ali Abdullaev

@Mirileen В курсе data-analysis-applications пожалуйста уберите вообще неделю с анализом изображения, лучше неделю потратить на чтение книги глубинное обучение, где это все расписано в разы лучше, хотя и там уже что-то устарело. Я впервые за специализацию не хочу закрывать курс и отменяю подписку.

Спасибо, что поделились своими впечатлениями. Материалы курса всеми воспринимаются по-разному, и возможно, кому-то даются сложнее, а кому-то проще. Где-то, соглашусь, тема раскрывается сложно.

Если у вас есть какие-то предложения по добавлению дополнительных материалов, будем рады вариантам.

источник

08:58пожаловаться #11

AR

Anton Rogozin in Machine learning

@Mirileen Поддерживаю по анализу изображений (как лекции, так и дз) в пятом курсе. Лекции были больше обзорными (не хватило тонкостей, нейронок и объяснений), они не очень соответствуют стандартам лекций, которые были на специализации ранее. Задание является устаревшим - обновлённые библиотеки работают совсем по другому, из-за чего ответы получаются совсем другими и ты больше времени тратишь на откат библиотек и поиск необходимых версий. Задание стоит обновить. По анализу изображений слышал, что хвалят этот курс - https://stepik.org/course/Нейронные-сети-и-компьютерное-зрение-50352/

P. S. У пятого курса среди всех курсов специализации самая низкая оценка - она может быть связана как раз с анализом изображений)

Stepik: online education

Нейронные сети и компьютерное зрение

Почему стоит начать изучение машинного обучения и нейронных сетей с нашего курса? Наш девиз "Больше практики!": излагая математические основы очень доступным языком, авторы курса, эксперты Samsung AI Center дадут базовые знания на примере решения задач компьютерного зрения. Это зрелищно и интересно!

источник

09:42пожаловаться #12

I

Ibp in Machine learning

Оля Криволейко

кто-нибудь знает, можно ли восстановить пропущенные значения в данных с помощью какой-либо модель, если отсутствует целевой признак?

в дополнение к уже сказаному: если пропусков больше 50% в колонке удаляют всю колонку, если меньше 5% в колонке- строки удаляют, если данные числовые - вставляют среднее, если числовые в timeseries - среднее за предыдущий период, если категориальные - можно вставить наиболее часто встречающуюся категорию, если много категорий суммарное кол во, которых меньше 5% от остальных, все эти категории можно обьединить в отдельную категорию: "другие".

источник

09:42пожаловаться #13

y

yithian in Machine learning

Насчёт удаление строк при 5% пропусках - спорно. От датасета зависит сильно.

источник

09:45пожаловаться #14

I

Ibp in Machine learning

какая зависимость?

источник

09:48пожаловаться #15

y

yithian in Machine learning

Ну вот есть датасет, скажет, 10000х100. И во всех фичах по 5% пропусков для случайных строк. Удаляя такие строки мы можем весь датасет ненароком дропнуть.)

источник

09:50пожаловаться #16

MM

Mira Mironova in Machine learning

Anton Rogozin

@Mirileen Поддерживаю по анализу изображений (как лекции, так и дз) в пятом курсе. Лекции были больше обзорными (не хватило тонкостей, нейронок и объяснений), они не очень соответствуют стандартам лекций, которые были на специализации ранее. Задание является устаревшим - обновлённые библиотеки работают совсем по другому, из-за чего ответы получаются совсем другими и ты больше времени тратишь на откат библиотек и поиск необходимых версий. Задание стоит обновить. По анализу изображений слышал, что хвалят этот курс - https://stepik.org/course/Нейронные-сети-и-компьютерное-зрение-50352/

P. S. У пятого курса среди всех курсов специализации самая низкая оценка - она может быть связана как раз с анализом изображений)

Stepik: online education

Нейронные сети и компьютерное зрение

Почему стоит начать изучение машинного обучения и нейронных сетей с нашего курса? Наш девиз "Больше практики!": излагая математические основы очень доступным языком, авторы курса, эксперты Samsung AI Center дадут базовые знания на примере решения задач компьютерного зрения. Это зрелищно и интересно!

Спасибо. Подумаем, что можно сделать

источник

09:52пожаловаться #17

JG

John Gosling in Machine learning

yithian

Ну вот есть датасет, скажет, 10000х100. И во всех фичах по 5% пропусков для случайных строк. Удаляя такие строки мы можем весь датасет ненароком дропнуть.)

Да если даже по 1%, но для разных строк пропущено

источник

09:54пожаловаться #18

I

Ibp in Machine learning

это какието специальные, не нормально распределенные датасеты:) посчитайте сами вероятность такокого исхода:)

источник

09:56пожаловаться #19

y

yithian in Machine learning

Ibp

это какието специальные, не нормально распределенные датасеты:) посчитайте сами вероятность такокого исхода:)

И не такие сеты в природе встречаются.) Например, если вы работаете с каким-то историческими данными, которые в какой-нибудь компании Х менялись-добавлялись годами или не слишком качественно агрегировались.

источник

10:00пожаловаться #20