Телеграмм чат группы bigdata_ru страница 2205

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

4407 membersпожаловаться на группу

2020 August 27

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Вопрос: а как из датафрейма сделать другой датафрейм, если в колонке есть слова ,и нужно если встречается слово в этой колонке выбрать эти строки

источник

23:11пожаловаться #1

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

?

источник

23:11пожаловаться #2

VZ

Vladimir Zenin in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ты можешь получить список колонок в виде листа. Отбираешь нужные колонки в листе, а дальше понятно

источник

23:13пожаловаться #3

2020 August 28

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ты можешь получить список колонок в виде листа. Отбираешь нужные колонки в листе, а дальше понятно

Уже получилось спасибо

источник

01:12пожаловаться #4

КЧ

Кирилл Чертоганов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ребят, а как долго будет считать множественная регрессия из 900 строк и одного миллиона колонок ?

источник

01:13пожаловаться #5

ЕТ

Евгений Томилов... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Кирилл Чертоганов

Ребят, а как долго будет считать множественная регрессия из 900 строк и одного миллиона колонок ?

Смотря на чём будете считать. Но, вообще, считать такую регрессию - гиблое дело, поскольку, грубо говоря, на каждое сочетание переменных будет приходиться <1 примера.

источник

01:19пожаловаться #6

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

так чисто общий вопрос, как вы думаете, из-за чего происходит следующее в тренировке:
например размер батча 128, и 391 батчей, то есть в целом датасет в размер 50048 прогоняется каждый ипок.
Теперь, я оставил shuffle=True, и вот для меня неожиданно достаточно, что например из 4-5 прогонов тренировки, иногда выходит результат на 5-7 процентов лучше других, лосс оказывается меньше, точность как написал лучше, и для меня чисто теоретически странно, ведь каждый эпок мой "тренер" смотрит на весь датасет, хоть и в иных комбинациях из-за shuffle-a, как так получается, есть какие-то мысли по этому поводу ?

источник

01:28пожаловаться #7

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

может это как-то со статистикой связанно, или что получается лосс квантовый ))?
Или такой маленький разнос в принципе это норм ?
Получается лосс немного иначе моделируется от шафла ?
какова в целом практика, не шафлить тогда, для простоты ?

источник

01:33пожаловаться #8

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

так чисто общий вопрос, как вы думаете, из-за чего происходит следующее в тренировке:
например размер батча 128, и 391 батчей, то есть в целом датасет в размер 50048 прогоняется каждый ипок.
Теперь, я оставил shuffle=True, и вот для меня неожиданно достаточно, что например из 4-5 прогонов тренировки, иногда выходит результат на 5-7 процентов лучше других, лосс оказывается меньше, точность как написал лучше, и для меня чисто теоретически странно, ведь каждый эпок мой "тренер" смотрит на весь датасет, хоть и в иных комбинациях из-за shuffle-a, как так получается, есть какие-то мысли по этому поводу ?

Ну рандом же

источник

01:33пожаловаться #9

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ты идёшь по направлению градиента

источник

01:34пожаловаться #10

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Хз, представь что перед тобой мост

источник

01:34пожаловаться #11

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

По идее, веса обновляются для каждого батча отдельно. Поэтому если в батче произвольные образцы, получим оценку градиента лучше

источник

01:34пожаловаться #12

EZ

Evgenii Zheltonozhsk... in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Есть разница сделать сначала 100 шагов вперёд а потом 100 направо или наоборот

источник

01:34пожаловаться #13

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Если образцы не случайные, то может оказаться, что в датасете они сгруппированы по классу, например. В этом случае оценка будет не такой точной

источник

01:35пожаловаться #14

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Если обновляете веса после каждого батча, а не в конце всей эпохи, то лучше перемешать

источник

01:36пожаловаться #15

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Evgenii Zheltonozhskii🇮🇱

Есть разница сделать сначала 100 шагов вперёд а потом 100 направо или наоборот

да, понял, то есть реальный лосс в реальном мире, полную функцию мы не знаем, а модели действительно немного разные получаются, как бы разные углы зрения в зависимости от-того куда сначала пошли.

источник

01:42пожаловаться #16

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Ivan

Если обновляете веса после каждого батча, а не в конце всей эпохи, то лучше перемешать

спасибо, ясно

источник

01:42пожаловаться #17

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

вдумываясь, а что вообще мы пытаемся смоделировать, такое впечатление, что это попытка измерить линейкой астрал, но ладно это философское уже

источник

01:45пожаловаться #18

I

Ilya in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

вообще как метод извлечения полезной информации из данных

источник

01:45пожаловаться #19

I

Ivan in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

У Гудфеллоу в книге, если верно помню, было про это. Нам важнее не точное значение, а оценка градиента. Если делать оценку на упорядоченном фрагменте данных, то можно получить смещённую оценку из-за того что все примеры подобраны. Если перемешать, то оценка будет на основе более разнообразных примеров и более достоверной.

источник

01:46пожаловаться #20