Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2020 August 12

ПП

Проксимов Прксимович... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Kamoliddin
Ребят есть датасет где 179 строк и 139 колонок
139 признаков окей
источник

ПП

Проксимов Прксимович... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Kamoliddin
Что можно сделать? Можно ли тренировать модели на таком маленьком датасете ?
Ну можно попробовать как минимум поработать с данными
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Да 139 это после чистки
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Но вот 179 жесть как мало
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Как я понял в таком случае обязательно провести regularization?
источник

ПП

Проксимов Прксимович... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Зависит от того, что ты будешь делать
источник

ПП

Проксимов Прксимович... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Зависит от самих данных
источник

ПП

Проксимов Прксимович... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Дальше ток на хрустальном шаре гадать...
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ок пойду попробую наколдовать
источник

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Kamoliddin
Как я понял в таком случае обязательно провести regularization?
Это достойно быть в одном ряду с чтением papers. =)
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Евгений Томилов
Это достойно быть в одном ряду с чтением papers. =)
Не понял (
источник

П

Павел in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Kamoliddin
Что можно сделать? Можно ли тренировать модели на таком маленьком датасете ?
А задача какая? Классификация или регрессия? Для регрессии - минимум квадратная матрица. Для классификации есть алгоритмы, которым пофиг на количество записей - например, кНН. Можно через PCA попробовать прогнать.
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Павел
А задача какая? Классификация или регрессия? Для регрессии - минимум квадратная матрица. Для классификации есть алгоритмы, которым пофиг на количество записей - например, кНН. Можно через PCA попробовать прогнать.
регрессия. Нужно подготовить 3 модели а именно linear regression, SVR, Random Forest и выбрать лучшую по r2score и rmse
источник

М

Михаил in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
чисто ради эксперемента попробовал бы случайный лес
источник

М

Михаил in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
или беггинг на деревьях но с хз каким max_features
источник

П

Павел in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Kamoliddin
регрессия. Нужно подготовить 3 модели а именно linear regression, SVR, Random Forest и выбрать лучшую по r2score и rmse
То есть задача учебная😁 я бы сделал первые 3 в лоб, потом бы попробовал ПЦА и повторил😁
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Павел
То есть задача учебная😁 я бы сделал первые 3 в лоб, потом бы попробовал ПЦА и повторил😁
не учебная ). Больше research. Нужно приготовить модель желательно самую точную чтобы они дальше использовали её хз в чём (не шарю в Химии). Главные проблемы что все эти данные были добыты в ручную и по этой причине их мало. И я не понимают сам датасет (работаю вслепую)
источник

П

Павел in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Тогда почему ограничение на алгоритмы? Ну и из 139 признаков 80% могут быть лишними
источник

K

Kamoliddin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Павел
Тогда почему ограничение на алгоритмы? Ну и из 139 признаков 80% могут быть лишними
ограничений нет но я выбрал 3 которые я умею. Насчет лишних я не знаю что именно трогать. Собираюсь провести feature selection. Дальше уже гляну. Сама проблема в том что не охота тренить модели когда у тебя данных меньше чем видосов которые ты пересмотрел в последнем курсе на coursera
источник

П

Павел in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Kamoliddin
ограничений нет но я выбрал 3 которые я умею. Насчет лишних я не знаю что именно трогать. Собираюсь провести feature selection. Дальше уже гляну. Сама проблема в том что не охота тренить модели когда у тебя данных меньше чем видосов которые ты пересмотрел в последнем курсе на coursera
источник