Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2020 August 27

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Вопрос: а как из датафрейма сделать другой датафрейм, если в колонке есть слова ,и нужно если встречается слово в этой колонке выбрать эти строки
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
?
источник

VZ

Vladimir Zenin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ты можешь получить список колонок в виде листа. Отбираешь нужные колонки в листе, а дальше понятно
источник
2020 August 28

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Vladimir Zenin
Ты можешь получить список колонок в виде листа. Отбираешь нужные колонки в листе, а дальше понятно
Уже получилось спасибо
источник

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ребят, а как долго будет считать множественная регрессия из 900 строк и одного миллиона колонок ?
источник

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Кирилл Чертоганов
Ребят, а как долго будет считать множественная регрессия из 900 строк и одного миллиона колонок ?
Смотря на чём будете считать. Но, вообще, считать такую регрессию - гиблое дело, поскольку, грубо говоря, на каждое сочетание переменных будет приходиться <1 примера.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
так чисто общий вопрос, как вы думаете, из-за чего происходит следующее в тренировке:
например размер батча 128, и 391 батчей, то есть в целом датасет в размер 50048 прогоняется каждый ипок.
Теперь, я оставил shuffle=True, и вот для меня неожиданно достаточно, что например из 4-5 прогонов тренировки, иногда выходит результат на 5-7 процентов лучше других, лосс оказывается меньше, точность как написал лучше, и для меня чисто теоретически странно, ведь каждый эпок мой "тренер" смотрит на весь датасет, хоть и в иных комбинациях из-за shuffle-a, как так получается, есть какие-то мысли по этому поводу ?
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
может это как-то со статистикой связанно, или что получается лосс квантовый ))?
Или такой маленький разнос в принципе это норм ?
Получается лосс немного иначе моделируется от шафла ?
какова в целом практика, не шафлить тогда, для простоты ?
источник

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ilya
так чисто общий вопрос, как вы думаете, из-за чего происходит следующее в тренировке:
например размер батча 128, и 391 батчей, то есть в целом датасет в размер 50048 прогоняется каждый ипок.
Теперь, я оставил shuffle=True, и вот для меня неожиданно достаточно, что например из 4-5 прогонов тренировки, иногда выходит результат на 5-7 процентов лучше других, лосс оказывается меньше, точность как написал лучше, и для меня чисто теоретически странно, ведь каждый эпок мой "тренер" смотрит на весь датасет, хоть и в иных комбинациях из-за shuffle-a, как так получается, есть какие-то мысли по этому поводу ?
Ну рандом же
источник

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ты идёшь по направлению градиента
источник

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Хз, представь что перед тобой мост
источник

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
По идее, веса обновляются для каждого батча отдельно. Поэтому если в батче произвольные образцы, получим оценку градиента лучше
источник

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Есть разница сделать сначала 100 шагов вперёд а потом 100 направо или наоборот
источник

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Если образцы не случайные, то может оказаться, что в датасете они сгруппированы по классу, например. В этом случае оценка будет не такой точной
источник

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Если обновляете веса после каждого батча, а не в конце всей эпохи, то лучше перемешать
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Evgenii Zheltonozhskii🇮🇱
Есть разница сделать сначала 100 шагов вперёд а потом 100 направо или наоборот
да, понял, то есть реальный лосс в реальном мире, полную функцию мы не знаем, а модели действительно немного разные получаются, как бы разные углы зрения в зависимости от-того куда сначала пошли.
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Ivan
Если обновляете веса после каждого батча, а не в конце всей эпохи, то лучше перемешать
спасибо, ясно
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
вдумываясь, а что вообще мы пытаемся смоделировать, такое впечатление, что это попытка измерить линейкой астрал, но ладно это философское уже
источник

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
вообще как метод извлечения полезной информации из данных
источник

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
У Гудфеллоу в книге, если верно помню, было про это. Нам важнее не точное значение, а оценка градиента. Если делать оценку на упорядоченном фрагменте данных, то можно получить смещённую оценку из-за того что все примеры подобраны. Если перемешать, то оценка будет на основе более разнообразных примеров и более достоверной.
источник