Size: a a a

Natural Language Processing

2020 April 22

w

weakSB in Natural Language Processing
mel kaye
но есть модели которые принимают callable в види метрики
Про дерево решений - это для примера, в целом, безралично какой алгоритм, главное чтоб своё можно было запихнуть.

Очень благодарю!!
источник

D(

David (ddale) Dale in Natural Language Processing
weakSB
Приветствую, товарищи.

Надеюсь , данное письмо застигнет Вас в добром здравии.

Алгоритмы кластеризации используют различные метрики расстоянии между объектами, ну, вроде Чебышева, Манхэтонское расстояние и прочие.

Например, в  k-means Евклидово.

Вопрос следующий: есть ли техническая возможность, используя популярную реализацию алгоритма кластеризации (например, в  sklearn) , предложить алгоритму свою метрику ?

Мол, делаем всё как обычно, но, вот, уважаемый алгоритм DecisionTreeClassifier(), вместо индекса Джинни (если не ошибаюсь , там это используется для метрики расстояний между объектами) используй мою.
Если речь идёт именно о кластеризации (а не классификации), то в агломеративный кластеризатор в sklearn (или где-либо ещё) можно подложить свою собственную матрицу расстояний, вычисленных по какой угодно метрике. Вот пример.
источник

D(

David (ddale) Dale in Natural Language Processing
weakSB
Приветствую, товарищи.

Надеюсь , данное письмо застигнет Вас в добром здравии.

Алгоритмы кластеризации используют различные метрики расстоянии между объектами, ну, вроде Чебышева, Манхэтонское расстояние и прочие.

Например, в  k-means Евклидово.

Вопрос следующий: есть ли техническая возможность, используя популярную реализацию алгоритма кластеризации (например, в  sklearn) , предложить алгоритму свою метрику ?

Мол, делаем всё как обычно, но, вот, уважаемый алгоритм DecisionTreeClassifier(), вместо индекса Джинни (если не ошибаюсь , там это используется для метрики расстояний между объектами) используй мою.
А вас собственно классификация (с размеченными данными) или кластеризация (с неразмеченными) интересует?)
источник

DL

Dmitry Legchikov in Natural Language Processing
На сколько популярен рандом форест поверх tf-idf/fasttext в задаче классификации текстов?

Чаще всего про логистическую регрессию слышу, но у меня бейзлайн с рф уверенно побеждает логрег, стоит искать подвох?
источник

IS

Ivan Sheynin in Natural Language Processing
Dmitry Legchikov
На сколько популярен рандом форест поверх tf-idf/fasttext в задаче классификации текстов?

Чаще всего про логистическую регрессию слышу, но у меня бейзлайн с рф уверенно побеждает логрег, стоит искать подвох?
А SVM и Naive Bayes пробовали? Всяко бывает, у меня NB и, кажется, Extra Trees на каких-то текстах хорошо заходили. Основная засада RF в сравнении с NB или там LR тупо в том, что он сильно медленнее.
источник

IS

Ivan Sheynin in Natural Language Processing
Если уж хочется хороший скор и есть достаточно ресурсов, то имеет смысл сразу SOTA какую-нибудь нейросетёвую использовать. А если ресурсов нет и важнее скорость, чем чуть более лучший скор, тут то и пригождаются простые быстрые модели.
источник

D(

David (ddale) Dale in Natural Language Processing
Dmitry Legchikov
На сколько популярен рандом форест поверх tf-idf/fasttext в задаче классификации текстов?

Чаще всего про логистическую регрессию слышу, но у меня бейзлайн с рф уверенно побеждает логрег, стоит искать подвох?
Мне кажется, очень сильно зависит и от самих текстов, и от того, как они на классы разбиты. В целом я бы подвоха не искал) Сам раньше слышал про примеры, когда RF работал заметно лучше линейных моделей, и в принципе понятно, почему.
источник

T

Teemoor in Natural Language Processing
Ivan Sheynin
А SVM и Naive Bayes пробовали? Всяко бывает, у меня NB и, кажется, Extra Trees на каких-то текстах хорошо заходили. Основная засада RF в сравнении с NB или там LR тупо в том, что он сильно медленнее.
можно еще стакнуть NB и логрег по заветам Джереми
источник

IS

Ivan Sheynin in Natural Language Processing
Teemoor
можно еще стакнуть NB и логрег по заветам Джереми
Стэкинг никогда не помешает, но лучше всё же разных моделей )  Но в реальной жизни по-моему никто не стэкает, как на каггле
источник

YB

Yuri Baburov in Natural Language Processing
Dmitry Legchikov
На сколько популярен рандом форест поверх tf-idf/fasttext в задаче классификации текстов?

Чаще всего про логистическую регрессию слышу, но у меня бейзлайн с рф уверенно побеждает логрег, стоит искать подвох?
Мне кажется, стоит искать оверфитинг у лог рега :) например, если мало данных. нейросети чаще проигрывают из-за оверфитинга, а не репрезентативной способности. На многих NLP задачах совершенно разные головы поверх эмбеддингов показывают примерно одинаковые результаты. Где-то конечно есть задачи, где эмбеддинга мало, и сеть делает дополнительные фичи. На классификации текста обычно дополнительных внутренних фич не нужно, на голову пофиг, а вот более хорошие эмбеддинги (CNN/ULMFIT/ELMO/BERT) увеличивают качество, но при условии, что у вас мало supervised данных. Если же данных много -- то пофиг и на эмбеддинг, и на голову.
источник

DL

Dmitry Legchikov in Natural Language Processing
Ivan Sheynin
А SVM и Naive Bayes пробовали? Всяко бывает, у меня NB и, кажется, Extra Trees на каких-то текстах хорошо заходили. Основная засада RF в сравнении с NB или там LR тупо в том, что он сильно медленнее.
пробовал NB, SVM, LR, у них  разница в качестве минимальна по сравнению с RF
источник

DL

Dmitry Legchikov in Natural Language Processing
Текста короткие описания товаров, сильно почищенные
источник

DL

Dmitry Legchikov in Natural Language Processing
Спасибо за комментарии, интересный эффект получился, раньше такого не встречал
источник

YB

Yuri Baburov in Natural Language Processing
Dmitry Legchikov
Текста короткие описания товаров, сильно почищенные
У меня на таких Fasttext supervised нормально работал
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
У меня на таких Fasttext supervised нормально работал
Но текстов было много.
источник

DL

Dmitry Legchikov in Natural Language Processing
Текстов немного кстати, один датасет 10к, второй вообще 1к
источник

IS

Ivan Sheynin in Natural Language Processing
Dmitry Legchikov
пробовал NB, SVM, LR, у них  разница в качестве минимальна по сравнению с RF
Эээ, вы же сначала говорили, что RF уверенно заборол LR по качеству. Я что-то не понял )  А если качество одинаковое, то надо брать то, что быстрее работает. NB и лог.рег. весьма шустрые, например.
источник

IS

Ivan Sheynin in Natural Language Processing
А насчёт того, что эмбеддинги больше дают, чем выбор модели, которая учится по данным - это очень верно
источник

DL

Dmitry Legchikov in Natural Language Processing
LR, SVM и LR примерно равны между собой, a RF лучше их)
источник

IS

Ivan Sheynin in Natural Language Processing
Понятно )  Ну если по скорости справляется, то и хорошо. Повторюсь, у меня на текстах вообще Extra Trees внезапно лучше чем RF оказались.
источник