Телеграмм чат группы datasciencecourse страница 4622

2021 January 11

V

Valerix 02 in Machine learning

или может подскажите, где об этом хорошо написано

источник

18:43пожаловаться #1

MN

Maxim Neronov in Machine learning

Valerix 02

Всем привет, я с вопросом
Можно ли применять t- и z-критерии для определения необходимого размера подвыборки, если распределение случайной величины неизвестно?

Статистические критерии вообще не отвечают на вопросы определение минимального размера выборки, у них область действия - нулевая и альтернативная гипотезы

Если под z-критерием понимается именно z-тест пропорций (адаптация хи-квадрат пирсона), то лучше не использовать методы для расчёта мощности, связанные с этими критериями. Количество наблюдений в выборке вы получите, но на какой вопрос ответите и с какой мощностью - останется под вопросом (и как проверять не биномиальные данные соответствующим тестом - тоже)

источник

18:49пожаловаться #2

MN

Maxim Neronov in Machine learning

Valerix 02

или может подскажите, где об этом хорошо написано

В книжке R в действии самое простое и (мне так показалось показался) понятное описание расчёта необходимого размера выборки и величины эффекта. Можно для начала английскую статью про effect size почитать, потому что так или иначе Cohen's d встретится где-нибудь

источник

18:51пожаловаться #3

V

Valerix 02 in Machine learning

спасибо за наводку

источник

18:52пожаловаться #4

АГ

Артём Глазунов... in Machine learning

Valerix 02

Всем привет, я с вопросом
Можно ли применять t- и z-критерии для определения необходимого размера подвыборки, если распределение случайной величины неизвестно?

Ну если распределение неизвестно, то под большим вопросом. Для этих критериев есть ограничения на нормальность выборок. Минимальный размер выборки для нужного эффекта, мощности и уровня значимости вычисляется по-разному для разных критериев. Вообще, при неизвестных распределениях можно было бы использовать непараметрических тесты, но есть ли для них соответствующие методы расчёта мин размера выборки? Я не припомню.. Знаю только для t теста и z теста для пропорций. Если найдёте для непараметрических критериев, поделитесь, если не сложно)

источник

19:10пожаловаться #5

SS

Sergey Salnikov in Machine learning

идеологически - что мешает использовать персентили неизвестного, но апроксимированного (бутстрапами например) распределения

источник

20:11пожаловаться #6

АГ

Артём Глазунов... in Machine learning

Sergey Salnikov

идеологически - что мешает использовать персентили неизвестного, но апроксимированного (бутстрапами например) распределения

Да ничего, вроде, а как время эксперимента для него подсчитать?

источник

20:14пожаловаться #7

AK

Alexey Kholodkov in Machine learning

Нужен совет по pandas - пытаюсь прочитать большой csv и хочу отфильтровать в нем плохие строки: либо по предикату от строки, либо при парсинге значений по столбцам. Параметр error_bad_lines тут не помогает - насколько я понял, он реагирует только на строки с слишком большим количеством колонок. Каким образом можно эти строки отфильтровать до вычитывания файла?

источник

20:28пожаловаться #8

d

dl in Machine learning

Alexey Kholodkov

Нужен совет по pandas - пытаюсь прочитать большой csv и хочу отфильтровать в нем плохие строки: либо по предикату от строки, либо при парсинге значений по столбцам. Параметр error_bad_lines тут не помогает - насколько я понял, он реагирует только на строки с слишком большим количеством колонок. Каким образом можно эти строки отфильтровать до вычитывания файла?

может быть, параметр comment поможет?

источник

20:41пожаловаться #9

AK

Alexey Kholodkov in Machine learning

Плохой - значит не удается его распарсить. Например в dtype указан int, а читается строка

источник

20:41пожаловаться #10

AK

Alexey Kholodkov in Machine learning

dl

может быть, параметр comment поможет?

Не подходит. У меня не подходящие строки могут с разных символов начинаться

источник

20:44пожаловаться #11

SS

Sergey Salnikov in Machine learning

походу штатными средствами - никак. парси python csv, собирай в например словари, и создавай из них DataFrame

источник

20:44пожаловаться #12

d

dl in Machine learning

Alexey Kholodkov

Не подходит. У меня не подходящие строки могут с разных символов начинаться

видимо, тогда парсить ручками

источник

20:47пожаловаться #13

d

dl in Machine learning

Alexey Kholodkov

Не подходит. У меня не подходящие строки могут с разных символов начинаться

А насколько большой csv? В память влазит?

источник

20:48пожаловаться #14

AK

Alexey Kholodkov in Machine learning

dl

А насколько большой csv? В память влазит?

Десятки ГБ. Не влазит. В любом случае хочется уметь его фильтровать

источник

20:49пожаловаться #15

AW

Alex Wolf in Machine learning

так в два прохода - сначала читаешь один, выкидываешь неподходящие строки, пишешь назад в (другой) файл хорошие. Читаешь большими блоками по 10 МБ (или много строк) - процессинг так быстрее будет.
Так подойдёт ?

источник

21:00пожаловаться #16

AK

Alexey Kholodkov in Machine learning

Alex Wolf

так в два прохода - сначала читаешь один, выкидываешь неподходящие строки, пишешь назад в (другой) файл хорошие. Читаешь большими блоками по 10 МБ (или много строк) - процессинг так быстрее будет.
Так подойдёт ?

Нет. Это вообще какой-то костыль. Нужно чтобы работало быстро, а не читать и записывать по нескольку раз

источник

21:01пожаловаться #17

d

dl in Machine learning

Alexey Kholodkov

Десятки ГБ. Не влазит. В любом случае хочется уметь его фильтровать

После фильтра тоже не влазит? Если да, как ты хочешь его считать?

источник

21:02пожаловаться #18

DP

Dmitry Penzar in Machine learning

Valerix 02

Всем привет, я с вопросом
Можно ли применять t- и z-критерии для определения необходимого размера подвыборки, если распределение случайной величины неизвестно?

Если размер выборки, полученный в ответе, достаточно большой - то да, т.к по цпт получите z-test. Но как правильно написали, тогда нужно понимать про effect size.

источник

21:02пожаловаться #19

AW

Alex Wolf in Machine learning

быстро и десятки гигабайт не бывает - т.к. быстро это in-memory либо работа с большими буферами, влезающими в память

источник

21:02пожаловаться #20