Size: a a a

Machine learning

2020 June 21

Д

Драконъ in Machine learning
Lieutenant Dan
В формуле стоит произведение по всем элементам выборки n. Элементов в выборке n=200. 109 из них соответствует параметр Xi="0 погибших". То есть нужно умножить вероятность P(X=Xi) 109 раз, то есть возвести в степень 109. Аналогично с другими элементами.
Да, спасибо огромное! Я как-то абсолютно пропустила этот момент.
источник

АГ

Артём Глазунов... in Machine learning
Helga Lilo
#C6W1 Отток клиентов
Рассчитать корреляцию между бинарной целевой и непрерывными признаками. Говорят о том, что Пирсона использовать в данном случае некорректно, и ссылаются на видео, где сказано, что мера взаимосвязи рассчитывается как разность математических ожиданий непрерывной функции на значениях целевой переменной равной 1 и 0.
np.mean(data[data.label == 1]) - np.mean(data[data.label == -1])
Как дальше интерпретировать полученные числа? Необходимо выбрать топ, максимально коррелируемые признаки.
Я делал так: сначала нашёл нормализованные разности мат ожиданий по классам для числовых признаков(делил разности на соответствующие средние значения признака вообще). Затем отсортировал и построил barplot.  Это было не сложно, но вот потом, уже категориальные признаки взорвали мозг, поскольку хи квадрат в основном там не применим, при этом, когда применим, корреляции была очень слабая. Поэтому основные выводы по значимости на этой неделе я делал по различия в гистограммам по классам.
источник

RS

Ruslan Sabirov in Machine learning
Привет!
У меня есть размеченный датасет мероприятий, но он multi-labeled, т.е. для каждого объекта у меня есть несколько лейблов (2.5 в среднем), описывающих тематику мероприятия. Некоторые из этих тематик очень сильно пересекаются (например, IT и ML), а некоторые являются подмножеством других (например, Образование и Дошкольное образование). Посоветуйте, пожалуйста, как можно свести кол-во тематик для каждого мероприятия к 1?
источник

АГ

Артём Глазунов... in Machine learning
Ruslan Sabirov
Привет!
У меня есть размеченный датасет мероприятий, но он multi-labeled, т.е. для каждого объекта у меня есть несколько лейблов (2.5 в среднем), описывающих тематику мероприятия. Некоторые из этих тематик очень сильно пересекаются (например, IT и ML), а некоторые являются подмножеством других (например, Образование и Дошкольное образование). Посоветуйте, пожалуйста, как можно свести кол-во тематик для каждого мероприятия к 1?
Не пробовали по каждому объекту найти тему как сумму  тем с использованием какого-нибудь wordtovec, либо кластеризацию провести(сначала словарь, затем bow, затем какой-нибудь kmeans, предварительно по силуэту или по правилу локтя число кластеров подобрать) и уже кластеры обозвать, а названием кластера уже сам объект.. Можно попробовать bigartm,если рассматривать лейблы вместе для каждого объекта, как маленький текст...
источник

АГ

Артём Глазунов... in Machine learning
Только Word to vec предобученный должен быть на большой выборке, где-то в курсе ods ссылка была
источник

D

Dmitry_FI in Machine learning
Коллеги, добрый вечер.  Вопрос: Где можно применить  машинное обучение в производственной среде? Может быть есть кейсы или ссылки на статьи, которыми вы бы могли поделится?
Хочу понять, где в перспективе могу принести added value в своей компании.

О себе: 28 лет, проживаю в Бельгии(есть кто из Бельгии/Нидерландов? 😉) , MSc economics, BA Business Administration. Работаю в Fmcg компании. Почти 5 лет опыта работы в стратегических закупках. только начал курс машинного обучения. Заряжен на полную, космическое чувство погрузиться сново в Learning environment.
Рад знакомству :)
источник

O

Osmu in Machine learning
годно, спасибо
источник

P

Pierre in Machine learning
Ща бы по фихтенгольцу в 2к20 матан учить
источник

P

Pierre in Machine learning
Знаем, проходили
источник

I

Igor in Machine learning
Pierre
Ща бы по фихтенгольцу в 2к20 матан учить
Матан весь придумали в каком веке?
источник

P

Pierre in Machine learning
Но увольте, оно нечитабельно
источник

I

Igor in Machine learning
Pierre
Но увольте, оно нечитабельно
Не согласен, есть и другие варианты, зависит от ваших знаний конечно
источник

AM

Alina Mikhaylenko in Machine learning
Pierre
Но увольте, оно нечитабельно
Думаю, что тут кому как, на вкус, так сказать. Мне его книжки показались очень полезными и вообще в принципе лично для себя много чего там подчерпнула
источник

AM

Alina Mikhaylenko in Machine learning
Так что тут уже надо смотреть каждому
источник

RN

Roman Nozdrin in Machine learning
Эхх щас бы не сразу анализ на многообразиях читать
источник

P

Pierre in Machine learning
Alina Mikhaylenko
Так что тут уже надо смотреть каждому
Ну тут да. Но в большинстве случаев чтение Фихтенгольца ничего кроме боли и страданий не принесёт
источник

ФР

Фёдор Родионов... in Machine learning
Pierre
Но увольте, оно нечитабельно
Хз, я по нему проходил матан. Хотя матан запомнил, скорее, из-за классического препода по матанализу, который валил всех на экзаменах, поэтому реально приходилось учить перед экзаменом лекции. Учебник не помню совсем (но это могут быть последствия психологической травмы)))
источник

AM

Alina Mikhaylenko in Machine learning
Вообще, есть Берман как задачник, он довольно такой, средний, есть и посложнее задачи, но в основном достаточно базовые. На них хорошо можно руку набить
источник

RN

Roman Nozdrin in Machine learning
Pierre
Ну тут да. Но в большинстве случаев чтение Фихтенгольца ничего кроме боли и страданий не принесёт
И матана на уровне середины 19 века
источник

DS

Dmitry I. Sokolov in Machine learning
C2W2 Немного отстал от поезда, у кого есть возможность, проверьте, пожалуйста, работу https://www.coursera.org/learn/supervised-learning/peer/kfDUX/linieinaia-rieghriessiia-pierieobuchieniie-i-rieghuliarizatsiia/review/IWYcV688EeqIPgqGqoja_Q
источник