Телеграмм чат группы datasciencecourse страница 4603

Да, пипец не легко)

10:54пожаловаться #1

DO

Артём Глазунов

У вас выборка, есть число элементов в выборке n, которое фигурирует в цпт. Попробуйте в размышлениях учесть тот факт, что распределение выборочного среднего несколько уже, чем распределение просто годовых осадков.

Спасибо за наводку, решил.

В задаче это названо "средним значением осадков и его дисперсия", что наводит на мысль что это и есть средне выборочное и его дисперсия.

Средневыборочное - да, но дисперсию надо получить поделив на n.

Это конечно сбивает с толку.
Сейчас я решил задачу, но понял ещё не полностью.

11:07пожаловаться #2

DO

Выходит у меня один и тот же набор данных, но в первом случае я считаю что у них дисперсия X, а во втором случае я считаю что у них дисперсия X/n.

11:07пожаловаться #3

IK

Ivan Krokhalyov in Machine learning

потому что в одном случае дисперсия ВЫБОРКИ, а во втором - дисперсия СРЕДНЕГО выборки

D( x1+....+xn/n)= (1/n^2)*sum( Dx_i)= (n*Dx)/n^2=Dx/n

11:09пожаловаться #4

АГ

Артём Глазунов... in Machine learning

Denis O

Выходит у меня один и тот же набор данных, но в первом случае я считаю что у них дисперсия X, а во втором случае я считаю что у них дисперсия X/n.

Есть годовое значение осадков, есть его среднее по выборке, две разные сл величины. Эту же формулу можно вывести из дисперсии суммы n случайных величин при условии их взаимной независимости.

11:11пожаловаться #5

АГ

Артём Глазунов... in Machine learning

Если у вас выборка большая, то выборочное среднее почти мат ожидание, если выборка маленькая, то выб ср меняется сильно. Интуитивная зависимость от размера.

11:13пожаловаться #6

АГ

Артём Глазунов... in Machine learning

Артём Глазунов

Если у вас выборка большая, то выборочное среднее почти мат ожидание, если выборка маленькая, то выб ср меняется сильно. Интуитивная зависимость от размера.

При переходе от одной выборки к другой, имеется в виду

11:14пожаловаться #7

DO

Спасибо, примерно понял, но видимо надо больше практики для полного понимания

11:21пожаловаться #8

АГ

Артём Глазунов... in Machine learning

Denis O

Спасибо, примерно понял, но видимо надо больше практики для полного понимания

Там весь 4 курс об этом, будет где ещё попробовать)

13:06пожаловаться #9

TN

Taras Novokhatsko in Machine learning

Всем привет. Ребята, подскажите, будут ли библиотечные функции precision, recall и f1 работать для мультиклассового варианта? Если классов не два, а пять?

13:09пожаловаться #10

DP

Dmitry Penzar in Machine learning

простите, а гугл отключили?

13:11пожаловаться #11

DP

Dmitry Penzar in Machine learning

кроме того, help еще у каждой функции есть

13:13пожаловаться #12

TN

Taras Novokhatsko in Machine learning

Вот это разговор👍

13:13пожаловаться #13

ДВ

Всем привет👋
Подскажите, пожалуйста, по pandas.
Есть датафрейм типа:
cluster | name
1 - a
1 - a
1 - c
2 - a
2 - b
Мне нужно сгруппировать по полю cluster и получить в каждом кластере значение name и количество таких name в этом кластере.
Тут будет:
Cluster 1: a - 2, c-1
cluster 2: a-1, b-1
Как лучше это сделать? У меня получается толко сгруппировать и общее количество найти, а не количество каждого уникального в классе по отдельности. Не понимаю куда дальше копать :с

13:27пожаловаться #14

ДВ

Только спросила и поняла как делать😅 Если кому-то понадобится, то просто группировать по cluster и по name, он оказывается как в sql может👌

13:36пожаловаться #15

D

Dmitry in Machine learning

Дарья Воронцова

Всем привет👋
Подскажите, пожалуйста, по pandas.
Есть датафрейм типа:
cluster | name
1 - a
1 - a
1 - c
2 - a
2 - b
Мне нужно сгруппировать по полю cluster и получить в каждом кластере значение name и количество таких name в этом кластере.
Тут будет:
Cluster 1: a - 2, c-1
cluster 2: a-1, b-1
Как лучше это сделать? У меня получается толко сгруппировать и общее количество найти, а не количество каждого уникального в классе по отдельности. Не понимаю куда дальше копать :с

двойная группировка нужна

13:36пожаловаться #16

AK

Artem Konnov in Machine learning

df[а] = np.ones(len(df)) - создаем дополнительный столбец с единицами
df.groupby(['cluster', 'name']).sum() - соберет по группам и посчитает количество. Того же эффекта можно добиться через .size() только без добавления артефактного столбца

13:36пожаловаться #17

ДВ

Дааа, спасибо)

13:36пожаловаться #18

ДВ

Artem Konnov

df[а] = np.ones(len(df)) - создаем дополнительный столбец с единицами
df.groupby(['cluster', 'name']).sum() - соберет по группам и посчитает количество. Того же эффекта можно добиться через .size() только без добавления артефактного столбца

О, так прям красиво получается, спасибо большое)

13:37пожаловаться #19

D

Dmitry in Machine learning

Подскажите может кто сталкивался. Есть два компа, один старый, там проц core i7 первого поколения и второй новый, там ryzen 3. оба 4 ядра, памяти 16 гигов. Запускаю трейн на scikit, mlpclassifier. Один и тот же датасет. Первый комп всю ночь считает, второй 30 минут. Вопрос, почему такая грандиозная разница?