Телеграмм чат группы natural_language

2020 April 22

w

но есть модели которые принимают callable в види метрики

Про дерево решений - это для примера, в целом, безралично какой алгоритм, главное чтоб своё можно было запихнуть.

Очень благодарю!!

источник

18:29пожаловаться #1

D(

David (ddale) Dale in Natural Language Processing

weakSB

Приветствую, товарищи.

Надеюсь , данное письмо застигнет Вас в добром здравии.

Алгоритмы кластеризации используют различные метрики расстоянии между объектами, ну, вроде Чебышева, Манхэтонское расстояние и прочие.

Например, в k-means Евклидово.

Вопрос следующий: есть ли техническая возможность, используя популярную реализацию алгоритма кластеризации (например, в sklearn) , предложить алгоритму свою метрику ?

Мол, делаем всё как обычно, но, вот, уважаемый алгоритм DecisionTreeClassifier(), вместо индекса Джинни (если не ошибаюсь , там это используется для метрики расстояний между объектами) используй мою.

Если речь идёт именно о кластеризации (а не классификации), то в агломеративный кластеризатор в sklearn (или где-либо ещё) можно подложить свою собственную матрицу расстояний, вычисленных по какой угодно метрике. Вот пример.

Gist

Agglomerative clustering using Scikit-Learn (with a custom distance metric)

Agglomerative clustering using Scikit-Learn (with a custom distance metric) - hclustering.py

источник

19:00пожаловаться #2

D(

David (ddale) Dale in Natural Language Processing

weakSB

Приветствую, товарищи.

Надеюсь , данное письмо застигнет Вас в добром здравии.

Алгоритмы кластеризации используют различные метрики расстоянии между объектами, ну, вроде Чебышева, Манхэтонское расстояние и прочие.

Например, в k-means Евклидово.

Вопрос следующий: есть ли техническая возможность, используя популярную реализацию алгоритма кластеризации (например, в sklearn) , предложить алгоритму свою метрику ?

Мол, делаем всё как обычно, но, вот, уважаемый алгоритм DecisionTreeClassifier(), вместо индекса Джинни (если не ошибаюсь , там это используется для метрики расстояний между объектами) используй мою.

А вас собственно классификация (с размеченными данными) или кластеризация (с неразмеченными) интересует?)

источник

19:02пожаловаться #3

DL

Dmitry Legchikov in Natural Language Processing

На сколько популярен рандом форест поверх tf-idf/fasttext в задаче классификации текстов?

Чаще всего про логистическую регрессию слышу, но у меня бейзлайн с рф уверенно побеждает логрег, стоит искать подвох?

источник

19:32пожаловаться #4

IS

Ivan Sheynin in Natural Language Processing

Dmitry Legchikov

На сколько популярен рандом форест поверх tf-idf/fasttext в задаче классификации текстов?

Чаще всего про логистическую регрессию слышу, но у меня бейзлайн с рф уверенно побеждает логрег, стоит искать подвох?

А SVM и Naive Bayes пробовали? Всяко бывает, у меня NB и, кажется, Extra Trees на каких-то текстах хорошо заходили. Основная засада RF в сравнении с NB или там LR тупо в том, что он сильно медленнее.

источник

19:42пожаловаться #5

IS

Ivan Sheynin in Natural Language Processing

Если уж хочется хороший скор и есть достаточно ресурсов, то имеет смысл сразу SOTA какую-нибудь нейросетёвую использовать. А если ресурсов нет и важнее скорость, чем чуть более лучший скор, тут то и пригождаются простые быстрые модели.

источник

19:44пожаловаться #6

D(

David (ddale) Dale in Natural Language Processing

Dmitry Legchikov

На сколько популярен рандом форест поверх tf-idf/fasttext в задаче классификации текстов?

Чаще всего про логистическую регрессию слышу, но у меня бейзлайн с рф уверенно побеждает логрег, стоит искать подвох?

Мне кажется, очень сильно зависит и от самих текстов, и от того, как они на классы разбиты. В целом я бы подвоха не искал) Сам раньше слышал про примеры, когда RF работал заметно лучше линейных моделей, и в принципе понятно, почему.

источник

19:44пожаловаться #7

T

Teemoor in Natural Language Processing

Ivan Sheynin

А SVM и Naive Bayes пробовали? Всяко бывает, у меня NB и, кажется, Extra Trees на каких-то текстах хорошо заходили. Основная засада RF в сравнении с NB или там LR тупо в том, что он сильно медленнее.

можно еще стакнуть NB и логрег по заветам Джереми

источник

19:45пожаловаться #8

IS

Ivan Sheynin in Natural Language Processing

Teemoor

можно еще стакнуть NB и логрег по заветам Джереми

Стэкинг никогда не помешает, но лучше всё же разных моделей ) Но в реальной жизни по-моему никто не стэкает, как на каггле

источник

19:48пожаловаться #9

YB

Yuri Baburov in Natural Language Processing

Dmitry Legchikov

На сколько популярен рандом форест поверх tf-idf/fasttext в задаче классификации текстов?

Чаще всего про логистическую регрессию слышу, но у меня бейзлайн с рф уверенно побеждает логрег, стоит искать подвох?

Мне кажется, стоит искать оверфитинг у лог рега :) например, если мало данных. нейросети чаще проигрывают из-за оверфитинга, а не репрезентативной способности. На многих NLP задачах совершенно разные головы поверх эмбеддингов показывают примерно одинаковые результаты. Где-то конечно есть задачи, где эмбеддинга мало, и сеть делает дополнительные фичи. На классификации текста обычно дополнительных внутренних фич не нужно, на голову пофиг, а вот более хорошие эмбеддинги (CNN/ULMFIT/ELMO/BERT) увеличивают качество, но при условии, что у вас мало supervised данных. Если же данных много -- то пофиг и на эмбеддинг, и на голову.

источник

19:58пожаловаться #10

DL

Dmitry Legchikov in Natural Language Processing

Ivan Sheynin

А SVM и Naive Bayes пробовали? Всяко бывает, у меня NB и, кажется, Extra Trees на каких-то текстах хорошо заходили. Основная засада RF в сравнении с NB или там LR тупо в том, что он сильно медленнее.

пробовал NB, SVM, LR, у них разница в качестве минимальна по сравнению с RF

источник

20:06пожаловаться #11

DL

Dmitry Legchikov in Natural Language Processing

Текста короткие описания товаров, сильно почищенные

источник

20:07пожаловаться #12

DL

Dmitry Legchikov in Natural Language Processing

Спасибо за комментарии, интересный эффект получился, раньше такого не встречал

источник

20:08пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

Dmitry Legchikov

Текста короткие описания товаров, сильно почищенные

У меня на таких Fasttext supervised нормально работал

источник

20:08пожаловаться #14

YB

Yuri Baburov in Natural Language Processing

Yuri Baburov

У меня на таких Fasttext supervised нормально работал

Но текстов было много.

источник

20:09пожаловаться #15

DL

Dmitry Legchikov in Natural Language Processing

Текстов немного кстати, один датасет 10к, второй вообще 1к

источник

20:10пожаловаться #16

IS

Ivan Sheynin in Natural Language Processing

Dmitry Legchikov

пробовал NB, SVM, LR, у них разница в качестве минимальна по сравнению с RF

Эээ, вы же сначала говорили, что RF уверенно заборол LR по качеству. Я что-то не понял ) А если качество одинаковое, то надо брать то, что быстрее работает. NB и лог.рег. весьма шустрые, например.

источник

20:19пожаловаться #17

IS

Ivan Sheynin in Natural Language Processing

А насчёт того, что эмбеддинги больше дают, чем выбор модели, которая учится по данным - это очень верно

источник

20:20пожаловаться #18

DL

Dmitry Legchikov in Natural Language Processing

LR, SVM и LR примерно равны между собой, a RF лучше их)

источник

20:21пожаловаться #19

IS

Ivan Sheynin in Natural Language Processing

Понятно ) Ну если по скорости справляется, то и хорошо. Повторюсь, у меня на текстах вообще Extra Trees внезапно лучше чем RF оказались.

источник

20:29пожаловаться #20