Size: a a a

Machine learning

2020 November 11

K

K-S in Machine learning
Ibp
а ну я не обратил внимание что распределение задано аналитически, ну тогда просто чтобы лес не городить с формулами можно наплодить достаточно большое количество точек - и вот вам будет распределение заданное выборкой
Не очень понял. Ну пусть у него есть генератор из некоего бимодального распределения. Ну насемплировал он их него миллионы точек, получились  сглаженные гауссианы, но как оценить их дисперсию без ем все равно непонятно
источник

I

Ibp in Machine learning
так чтобы все точки допустим вошли в какойто доверительный интервал, допустим 99%
источник

K

K-S in Machine learning
K-S
Вот вам гауссовская смесь. Как вы хотите оценить дисперсию каждой из них кроме как через ем алгоритм?
Ну вот, допустим, результат семплирования. Как вы хотите ещё раз тут действовать без ем?
источник

I

Ibp in Machine learning
K-S
Не очень понял. Ну пусть у него есть генератор из некоего бимодального распределения. Ну насемплировал он их него миллионы точек, получились  сглаженные гауссианы, но как оценить их дисперсию без ем все равно непонятно
ну как, я вижу что там будет два пика или нет? оценить их - это будет среднее. и есть точки слева и справа от пиков - это полуколоколы или как там каждого из распределения
источник

K

K-S in Machine learning
Так их разное количество с каждой стороны, или вы симметрично хотите прикидывать? И как тогда это вы с вычислительной точки зрения хотите делать?
источник

I

Ibp in Machine learning
K-S
Так их разное количество с каждой стороны, или вы симметрично хотите прикидывать? И как тогда это вы с вычислительной точки зрения хотите делать?
автор говорит, что оба распределения нормальны и мы ищем параметры для нормальных распределений, для этого нам можно знать тольео то что находится либо слева либо справа от среднего ибо они симметричны
источник

AD

Ai Dana in Machine learning
Всем привет,
„С1W2“
не могу скачать ‘dataset.tsv’, открыла html станицу, скачать не могу.
источник

DP

Dima Petrov in Machine learning
В каком браузере открываешь?
источник

DP

Dima Petrov in Machine learning
Ai Dana
Всем привет,
„С1W2“
не могу скачать ‘dataset.tsv’, открыла html станицу, скачать не могу.
Попробуй в хроме открыть.
источник

AD

Ai Dana in Machine learning
Dima Petrov
В каком браузере открываешь?
сафари
источник

DP

Dima Petrov in Machine learning
Ai Dana
сафари
В сафари открывает, не скачивает(
источник

MM

Mira Mironova in Machine learning
Dima Petrov
В сафари открывает, не скачивает(
а пин читали?
источник

AD

Ai Dana in Machine learning
Dima Petrov
В сафари открывает, не скачивает(
спасибо!
источник

V

Vlad in Machine learning
@rogozinushka смотрел твой FAQ
Материальную помощь можно и на русском подавать
И просто ctrl c / ctrl v
И по несколько за раз
Главное как я понял лимит слов преодолеть
источник

AR

Anton Rogozin in Machine learning
Vlad
@rogozinushka смотрел твой FAQ
Материальную помощь можно и на русском подавать
И просто ctrl c / ctrl v
И по несколько за раз
Главное как я понял лимит слов преодолеть
Оки, поправил. Спасибо 👍
источник

K

K-S in Machine learning
Ibp
автор говорит, что оба распределения нормальны и мы ищем параметры для нормальных распределений, для этого нам можно знать тольео то что находится либо слева либо справа от среднего ибо они симметричны
Так вы не ответили на вопрос, как вы это численно собрались делать? На глаз определять среднее?
источник

MK

Maria Kulyashova in Machine learning
Добрый вечер!

Подскажите, пожалуйста, есть ли какое-то оптимальное количество значений, которые может принимать категориальная переменная в модели?

Собираюсь строить рэндом форест и бустинг, некоторые категориальные переменные имеют по 10+ значений, насколько я понимаю, это плохо для encoding

(Все это гуглила, везде разная информация, поэтому обращаюсь сюда за советом)
источник

K

K-S in Machine learning
K-S
Так вы не ответили на вопрос, как вы это численно собрались делать? На глаз определять среднее?
А если у тс ещё и выборка, а не вся ГС, то все ещё более неоднозначно становится в вашем подходе
источник

АГ

Артём Глазунов... in Machine learning
Ibp
автор говорит, что оба распределения нормальны и мы ищем параметры для нормальных распределений, для этого нам можно знать тольео то что находится либо слева либо справа от среднего ибо они симметричны
У нас же на исходной картинке изображена сумма плотностей от разных гауссиан, моды на графиках - это смещенные средние для гауссиан.
источник

АГ

Артём Глазунов... in Machine learning
Maria Kulyashova
Добрый вечер!

Подскажите, пожалуйста, есть ли какое-то оптимальное количество значений, которые может принимать категориальная переменная в модели?

Собираюсь строить рэндом форест и бустинг, некоторые категориальные переменные имеют по 10+ значений, насколько я понимаю, это плохо для encoding

(Все это гуглила, везде разная информация, поэтому обращаюсь сюда за советом)
Тут вопрос не в оптимальном количестве категорий, а в способах кодирования. Можно ввести гиперпараметр для порогового числа категорий(скажем, 30), для признаков, где меньше, использовать one hot, для остальных ordinal или mean encoding. Этот гиперпараметр подобрать на кросс-валидации. Вообще, для деревьев one hot не рекомендуют, конечно, использовать, но при малом числе категорий все равно его используют.
источник