Size: a a a

Machine learning

2020 May 17

RS

Ruslan Sabirov in Machine learning
novicer
метод локтя вроде уже использовать не получится
Почему?
источник

n

novicer in Machine learning
Ruslan Sabirov
Почему?
нет условия однородности кластеров, я думаю
источник

RS

Ruslan Sabirov in Machine learning
novicer
нет условия однородности кластеров, я думаю
У sklearn есть много разных метрик, которыми можно измерить качество кластеризации. Можно попробовать измерить разные метрики на разных K и посмотреть что дает лучший результат.
Некоторые из этих метрик совместимы с методом локтя

https://scikit-learn.org/stable/modules/model_evaluation.html
источник

n

novicer in Machine learning
+ я взял кластеризацию c-means из-за того, что у меня есть категориальные данные, но при этом я не могу определить вес каждого параметра -> с этим у локтя тоже проблемы должны быть
источник

n

novicer in Machine learning
Ruslan Sabirov
У sklearn есть много разных метрик, которыми можно измерить качество кластеризации. Можно попробовать измерить разные метрики на разных K и посмотреть что дает лучший результат.
Некоторые из этих метрик совместимы с методом локтя

https://scikit-learn.org/stable/modules/model_evaluation.html
а если у меня нет заранее информации о классах?
источник

RS

Ruslan Sabirov in Machine learning
novicer
а если у меня нет заранее информации о классах?
Там есть и supervised (есть true классы) и non-supervised (нет информации о true классах) метрики. Например, Silhouette score (non-supervised) используют логику того, что точки расположенные рядом должны быть в одном классе, а те, что далеко — в разных
источник

ЕЯ

Евгений Яковлев... in Machine learning
novicer
s = ['a', 'b', 'c']
[" ".join(s)]
спасибо!
источник

n

novicer in Machine learning
Ruslan Sabirov
Там есть и supervised (есть true классы) и non-supervised (нет информации о true классах) метрики. Например, Silhouette score (non-supervised) используют логику того, что точки расположенные рядом должны быть в одном классе, а те, что далеко — в разных
а какую метрику вообще лучше использовать для категориальных данных? cityblock? minkowski + предварительная нормализация? что-то ещё?
источник

ID

Ilya Denisov in Machine learning
Коллеги, столкнулся с проблемой при установке pip
python -m pip install -U pip
выдает, что python не является внутренней или внешней командой....

Подскажите, пожалуйста, как исправить чтобы установка прошла успешно?
источник

FR

Fizuli Ragimov in Machine learning
Разве не python -m pip install -U ? Могу ошибаться
источник

SD

Sergey Dudoladov in Machine learning
Pyhton3 попробуйте
источник

ID

Ilya Denisov in Machine learning
Sergey Dudoladov
Pyhton3 попробуйте
не помогает
источник

VZ

Valeriy Zubairov in Machine learning
Если винда, то надо python в PATH запихать
источник

VZ

Valeriy Zubairov in Machine learning
Потому что он, к сожалению, не всегда сам прокидывается
источник

VZ

Valeriy Zubairov in Machine learning
Либо писать полный путь к питону
источник

VZ

Valeriy Zubairov in Machine learning
То есть не python blaba, а
C:/users/lib/bin и так далее
источник

VZ

Valeriy Zubairov in Machine learning
источник

ID

Ilya Denisov in Machine learning
спасибо, посмотрю
источник

RS

Ruslan Sabirov in Machine learning
novicer
а какую метрику вообще лучше использовать для категориальных данных? cityblock? minkowski + предварительная нормализация? что-то ещё?
К сожалению, не работал с категориальными данными. Как вариант можно попробовать взять все комбинации категориальных фичей и применить кластеринг для каждой комбинации независимо.
источник

RS

Ruslan Sabirov in Machine learning
Кстати, если есть возможность, можно попробовать вручную разметить датасет и проставить реальные классы для 1-5 тыс примеров, применить на них RandomForestClassifier и посмотреть важность фичей (feature_importance).
Если вдруг окажется, что категориальные фичи не очень важны, то их можно будет отбросить
источник