Size: a a a

Machine learning

2021 February 28

NP

Nikita Petrov in Machine learning
Anvar Allagulov
Это задание плохо объяснено, я тоже на час залип

Для любого распределения, какое выбираешь, надо смотреть описание в документации scipy

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html

Там обычно написано, что когда ты определяет распределение в коде, ты можешь выбрать loc/scale параметры, если посмотреть в формулу распределения в документации и на Вики, то можно понять, как связаны loc/scale со всякими параметрами, типа mu/sigma/lambda

Если ты их не переопределять, значит у тебя дефолтовые значения, типа scale=1, loc=0

Ну а дальше по формулам из Википедии и глядя на формулу распределения считаешь среднее и отклонение
да, спасибо за помощь
я уже сдал задание, документацию и википедию мне кажется что выучил уже наизусть :) буду проверять работы, смотреть как сделали другие
в целом суть всю понял, построил даже 2 распределения, но возможно ошибся все же в отклонении

на час залип.. я залип на 2 дня по 7 часов :))
источник

AA

Anvar Allagulov in Machine learning
Nikita Petrov
да, спасибо за помощь
я уже сдал задание, документацию и википедию мне кажется что выучил уже наизусть :) буду проверять работы, смотреть как сделали другие
в целом суть всю понял, построил даже 2 распределения, но возможно ошибся все же в отклонении

на час залип.. я залип на 2 дня по 7 часов :))
Ну я час пытался понять, что от меня хотят только в этом пункте) на все задание ушло больше, конечно) хотя остальные места шли более гладко)
источник

--

- - in Machine learning
Привет! 👋

Подскажите, пожалуйста, multivariable regression ли использовать или что-то другое в случае, когда надо найти, какие параметры лучше всего будут предсказывать результат работы?

Датасет:
JobID
JobStartedOn
JobCompletedOn
JobDueOn
WorkerLevel
ProjectLength
CustomerID
WorkerID

Ситуация: есть переводчики текста (WorkerID) и есть клиенты (CustomerID) которые запрашивают перевод (JobID). На каждый проект отводиться какое-то время (JobDueOn, которая напрямую зависит только от ProjectLength), но переводчик может не справиться вовремя (JobCompletedOn  > JobDueOn). Задача проранжировать параметры, которые лучше всего предсказывают будет ли работа сдана в срок.
источник

I

Ibp in Machine learning
- -
Привет! 👋

Подскажите, пожалуйста, multivariable regression ли использовать или что-то другое в случае, когда надо найти, какие параметры лучше всего будут предсказывать результат работы?

Датасет:
JobID
JobStartedOn
JobCompletedOn
JobDueOn
WorkerLevel
ProjectLength
CustomerID
WorkerID

Ситуация: есть переводчики текста (WorkerID) и есть клиенты (CustomerID) которые запрашивают перевод (JobID). На каждый проект отводиться какое-то время (JobDueOn, которая напрямую зависит только от ProjectLength), но переводчик может не справиться вовремя (JobCompletedOn  > JobDueOn). Задача проранжировать параметры, которые лучше всего предсказывают будет ли работа сдана в срок.
выглядит как бинарная классификация: на базе параметров jobcompleted, jobdueon определить классы и обучить модель
источник

--

- - in Machine learning
Ibp
выглядит как бинарная классификация: на базе параметров jobcompleted, jobdueon определить классы и обучить модель
Я пробовал вначале посчитать разницу в секундах между jobdueon и jobcompletedon (назвал DueDelta) и посмотреть будет ли линейная зависимость между параметрами и DueDelta - не оказалось. Дальше привёл DueDelta к булевому значению (если DueDelta > 0, значит переводчик сдал вовремя и True, иначе False). Построил scatter графики и они опять все выглядят просто как две прямы на 0 и 1.
источник

--

- - in Machine learning
Простите, учусь на ходу)
источник

H

HelgMcRough in Machine learning
Это игрушечный датасет. Здесь д.б. helluva признаков очень критичных и влияющих на сдачу задания в срок. Потом когда переводчику дают работу учитывают и обычные нормативы (кол-во слов или знаков) которые переводчик способен перевести, не говоря про тематику и количества похожих фрагментов ранее переведенного текста  так называемыого Translation Memory. Задача явно какая то учебная ...
источник

I

Ibp in Machine learning
- -
Я пробовал вначале посчитать разницу в секундах между jobdueon и jobcompletedon (назвал DueDelta) и посмотреть будет ли линейная зависимость между параметрами и DueDelta - не оказалось. Дальше привёл DueDelta к булевому значению (если DueDelta > 0, значит переводчик сдал вовремя и True, иначе False). Построил scatter графики и они опять все выглядят просто как две прямы на 0 и 1.
ну у вас же там надо не геометрическое решение найти, что вы линии рисуете, а зависимость результата от параметров. Результат либо 0 либо1. (сделает не сделает, или DueDelta > 0 - сделает). Параметры :
JobID
WorkerLevel
CustomerID
WorkerID
остальное вычеркиваем, если других параметров работы нет, и  на них обучаем логистическую регрессию
источник
2021 March 01

M

Mix_Kup in Machine learning
Коллеги, приветствую. Подскажите, как в питон регуляризацию для KNN-регрессора (sklearn) настроить? у меня сильнейшее переобучение для весового параметра "distance"
источник

i

igor in Machine learning
У knn есть регуляризация?
источник

AR

Anton Rogozin in Machine learning
Mix_Kup
Коллеги, приветствую. Подскажите, как в питон регуляризацию для KNN-регрессора (sklearn) настроить? у меня сильнейшее переобучение для весового параметра "distance"
У knn нет регуляризации, есть гиперпараметры: количество соседей, метрика и прочие. Если их регулировать, то можно попробовать избежать переобучения. К примеру, малое количество соседей (допустим, 1 сосед) ведет к тому, что на основе самого ближайшего соседа принимается решение, к чему отнести предсказываемый объект. А если этот сосед является шумом, аномалией и прочей живностью - получаем переобучение
источник

i

igor in Machine learning
Knn выпадает из модели pac обучения
источник

i

igor in Machine learning
У него vc dim бесконечно
источник

i

igor in Machine learning
С другой стороны впредел при определённых условиях он сходится к лучшей оценке
источник

i

igor in Machine learning
С третей стороны проклятье размерности
источник

M

Mix_Kup in Machine learning
да, я потому и спрашиваю. Я делаю по сетке гиперпараметров обучение, и переход к переобучению почти сразу происходит, не могу золотую середину найти между неообученной и переобученной моделью
источник

i

igor in Machine learning
Наверное так не надо делать?
источник

i

igor in Machine learning
Мутная сетка
источник

M

Mix_Kup in Machine learning
а как же без поиска по сетке гиперпараметры подбирать?
источник

I

Ibp in Machine learning
Mix_Kup
а как же без поиска по сетке гиперпараметры подбирать?
по сетке подберите K параметр на тестовой выборке, чем он выше тем более обобщенная модель, но до определенного значения , потом опять качество ухудшается
источник