Size: a a a

ML Boot Camp Official

2020 November 08

MD

Mikhail Dektyarev in ML Boot Camp Official
источник

d

dePuff in ML Boot Camp Official
Gleb Erofeev
т.е. мы научимся лучше предсказывать паблик - т.к. туда софтлейблы добавили от композиции сложных моделей и на этом учились. Так?
А как это поможет с приватом (потенциально новым) в этом соревновании?
Ничего не мешает разметить тест, самому выкачать комменты пикабу и их разметить и научить на этой псевдоразметке что-то проще бертов
Всяким бертам нужно меньше данных чтобы что-то понять, дальше их можно поэксплуатировать, чтобы научить то, чему нужно больше данных

Я попробовал, был интересный опыт, но в соревновании не заюзал
источник

d

dePuff in ML Boot Camp Official
Меня сама идея расстроила: вот вам предсказания нашего fasttext зажгите в ограниченных ресурсах
источник

GE

Gleb Erofeev in ML Boot Camp Official
dePuff
Ничего не мешает разметить тест, самому выкачать комменты пикабу и их разметить и научить на этой псевдоразметке что-то проще бертов
Всяким бертам нужно меньше данных чтобы что-то понять, дальше их можно поэксплуатировать, чтобы научить то, чему нужно больше данных

Я попробовал, был интересный опыт, но в соревновании не заюзал
Это понятно. Но в реальной задаче мы не сможем вот так в будущее заглядывать?
источник

d

dePuff in ML Boot Camp Official
Gleb Erofeev
Это понятно. Но в реальной задаче мы не сможем вот так в будущее заглядывать?
На реальной задаче мы размечаем ручками трейн (это дорого) и размечаем умной моделькой датасет для тупых моделек

Чего нет, когда да?
источник

d

dePuff in ML Boot Camp Official
Просто напаршенный текст комментов это недорого и легально
источник

d

dePuff in ML Boot Camp Official
Gleb Erofeev
Это понятно. Но в реальной задаче мы не сможем вот так в будущее заглядывать?
Идея не оверфитнуться на тест, а разметить дешевле
источник

GE

Gleb Erofeev in ML Boot Camp Official
dePuff
Идея не оверфитнуться на тест, а разметить дешевле
Спасибо, за развернутый ответ :)
источник

SF

Sergei Fironov in ML Boot Camp Official
Gleb Erofeev
т.е. мы научимся лучше предсказывать паблик - т.к. туда софтлейблы добавили от композиции сложных моделей и на этом учились. Так?
А как это поможет с приватом (потенциально новым) в этом соревновании?
так данных очень много для дистилята. стек бертов объективно очень хорош и консистентен в отличии от нашей разметки
источник

d

dePuff in ML Boot Camp Official
Но тут у нас датка из серии "фантастические твари и где они обитают" написано четырьмя способами в трейне и размечено кардинально противоположно: а теперь пилим хорошее решение, которое предскажет написанное десятью способами "фантастические твари и где они обитают"  в тесте
источник

d

dePuff in ML Boot Camp Official
И я не шучу про текст и разметку
источник

GE

Gleb Erofeev in ML Boot Camp Official
Возможно специально шума добавили в разметку - такая мысль
источник

d

dePuff in ML Boot Camp Official
Да выход это от fasttext
источник

d

dePuff in ML Boot Camp Official
Судя по названию лэйблов
источник

GE

Gleb Erofeev in ML Boot Camp Official
dePuff
Да выход это от fasttext
Ну странно что одно и тоже по разному метит
источник

d

dePuff in ML Boot Camp Official
Ну там запятые разные)
источник

GE

Gleb Erofeev in ML Boot Camp Official
dePuff
Судя по названию лэйблов
startext - еще так же
источник

d

dePuff in ML Boot Camp Official
26937  __label__NORMAL  фантастические твари и где они обитают
181462  __label__INSULT  фантастические твари, и где они обитают.
источник

d

dePuff in ML Boot Camp Official
Gleb Erofeev
startext - еще так же
Спасибо
источник

d

dePuff in ML Boot Camp Official
Gleb Erofeev
startext - еще так же
А можно ссыль, не слышал о таком
источник