Size: a a a

Machine learning

2021 January 05

i

igor in Machine learning
Dmitry Penzar
10000 точек, 2 класса, попробуйте набросать решений так, чтобы точность 1 на невидимом датасете вышла
Hill climbing вообще жадный алгоритм
источник

DP

Dmitry Penzar in Machine learning
да тут не на чем оптимизировать) невидимого датасета то не видно
источник

K

K-S in Machine learning
Ibp
может конечно, а может и нет, но если вам так все очевидно, ответьте мне тогда на такой вопрос: откуда вам известно, что тестовая выборка репрезентативна, относительно генеральной совокупности, а не подобрана каким то специальным образом автором соревнования? ведь решая реальную задачу в жизни, одна из проблем которую нужно решить это создание репрезентативной тестовой выборки, а не подогнать параметры модели под существующую в единственном числе
В соревновании есть две стороны: организатор и участники. О целях кого из них вы говорите?

Если участники, то в большинстве соревнований — это демонстрация максимального качества на привате.

Если организаторы, то целей у них может быть очень много и сильно разных от соревнования к соревнованию. И подготовку данных осуществляют они, исходя из этих своих целей.
источник

I

Ibp in Machine learning
K-S
В соревновании есть две стороны: организатор и участники. О целях кого из них вы говорите?

Если участники, то в большинстве соревнований — это демонстрация максимального качества на привате.

Если организаторы, то целей у них может быть очень много и сильно разных от соревнования к соревнованию. И подготовку данных осуществляют они, исходя из этих своих целей.
я говорил об участниках. послушайте, вы тут меня все пытаетесь переубедить в том что я не заявлял, а не заявлял, я о том что соревнования бесполезны в плане обучения. Я просто высказал мысль о задачах, возможно спорной, но пока никто из вас меня в этом не переубедил, а я со своей стороны не хочу вас чему то убеждать, если вы сами в этом не хотите разобраться. и ищете только подтверждение своих мыслей.
источник

DP

Dmitry Penzar in Machine learning
вы предлагаете, что можно не видя датасет на нем получить 100% качество
источник

DP

Dmitry Penzar in Machine learning
предполагая, что мы можем сабмитить бесконечное число ответов
источник

DP

Dmitry Penzar in Machine learning
это разумеется, так. Только посчитайте сколько таких сабмитов надо для 10000 объектов, которые надо на 2 класса разделить
источник

I

Ibp in Machine learning
Dmitry Penzar
вы предлагаете, что можно не видя датасет на нем получить 100% качество
вам я уже точно ничего не предлагаю, расслабтесь и забейте
источник

DP

Dmitry Penzar in Machine learning
кек
источник

I

Ibp in Machine learning
Так, чтобы было еще более понятно мое мнение, то вот для себя я вижу одну из задач датасайнтиста, что ко мне приходит клиент, приносит кучу данных: табличных, картинок, звуков и говорит - вот это у меня есть, сделайте что нибудь с этим, чтоб я денег больше зарабатывал и тп. а не обучаться на каком то датасете.
источник

i

igor in Machine learning
Если клиент говорит сделай что нибудь для денег это уже вызывает вопрос. И это не работа дс.
источник

K

K-S in Machine learning
Ibp
Так, чтобы было еще более понятно мое мнение, то вот для себя я вижу одну из задач датасайнтиста, что ко мне приходит клиент, приносит кучу данных: табличных, картинок, звуков и говорит - вот это у меня есть, сделайте что нибудь с этим, чтоб я денег больше зарабатывал и тп. а не обучаться на каком то датасете.
Так да, в вопросе соревнований многие вопросы уже решены за участников оргами: данные подготовлены, метрика выбрана.

То, что соревнования отличаются от работы дс’а в энтерпрайзе — никто ж не спорит. Но не все ж в бизнес упирается.

Во-первых, в рисерче схожестей с соревнованиями больше, чем в бизнесе.
Во-вторых, в энтерпрайзах очень часто работают так себе спецы именно по мл/дл части. В sql и понимании домена они, конечно, мастаки, но вот сделать грамотную валидацию, понимать, как устроены под капотом lgb,xgb,SVM итд многие из них, увы, не могут.
источник

I

Ibp in Machine learning
igor
Если клиент говорит сделай что нибудь для денег это уже вызывает вопрос. И это не работа дс.
как правило все вокруг денег и крутится, для этого аналитиков и нанимают, а BI это один из разделов знаний дс
источник

I

Ibp in Machine learning
K-S
Так да, в вопросе соревнований многие вопросы уже решены за участников оргами: данные подготовлены, метрика выбрана.

То, что соревнования отличаются от работы дс’а в энтерпрайзе — никто ж не спорит. Но не все ж в бизнес упирается.

Во-первых, в рисерче схожестей с соревнованиями больше, чем в бизнесе.
Во-вторых, в энтерпрайзах очень часто работают так себе спецы именно по мл/дл части. В sql и понимании домена они, конечно, мастаки, но вот сделать грамотную валидацию, понимать, как устроены под капотом lgb,xgb,SVM итд многие из них, увы, не могут.
да насчет рисеча я не думал пока, это все таки тема такая, очень много личного времени требующая и решения всех бытовых проблем, скорее как хоби
источник

K

K-S in Machine learning
Давайте объективно, для работы типичным дс’ом в условном банке (не берём в учёт, конечно, какой-нибудь SBER lab), телеком итд — даже эта специализация будет оверкиллом. Вам единицы работающих там людей расскажут, как устроен под капотом не то что t-SNE, а даже PCA. Они просто знают, что такие штуки есть и что они могут делать. И все.
источник

K

K-S in Machine learning
Для успешного продвижения по такой карьерной лестнице, нужны другие вещи :/
источник

i

igor in Machine learning
Да, а кагл относится к дс, так олимпиада к зож
источник

I

Ibp in Machine learning
K-S
Давайте объективно, для работы типичным дс’ом в условном банке (не берём в учёт, конечно, какой-нибудь SBER lab), телеком итд — даже эта специализация будет оверкиллом. Вам единицы работающих там людей расскажут, как устроен под капотом не то что t-SNE, а даже PCA. Они просто знают, что такие штуки есть и что они могут делать. И все.
да я знаю это, поэтому и не всякая работа мне вообще интересна, если честно, ради денег. хотя, мой опыт мне подсказывает , что из любой работы можно сделать рисеч:) если бы не это я бы давно тут от некотрых вещей деградировал бы:)
источник

I

Ibp in Machine learning
igor
Да, а кагл относится к дс, так олимпиада к зож
ну так я об этом собстно и написал изначально
источник

K

K-S in Machine learning
Ibp
да я знаю это, поэтому и не всякая работа мне вообще интересна, если честно, ради денег. хотя, мой опыт мне подсказывает , что из любой работы можно сделать рисеч:) если бы не это я бы давно тут от некотрых вещей деградировал бы:)
Теоретически сделать-то можно, только вот согласен ли будет работодатель не то что платить тебе за твой рисерч, а просто выделять на это время — это большой вопрос.

Вот у меня, например, в своей галере не удалось это пропихнуть. В итоге в прод зачастую улетали фактически бейзлайн модельки.

А по ночам я, честно говоря, предпочту каггл решать, а не над работой думать.
источник