Size: a a a

Machine learning

2021 January 11

V

Valerix 02 in Machine learning
или может подскажите, где об этом хорошо написано
источник

MN

Maxim Neronov in Machine learning
Valerix 02
Всем привет, я с вопросом
Можно ли применять t- и z-критерии для определения необходимого размера подвыборки, если распределение случайной величины неизвестно?
Статистические критерии вообще не отвечают на вопросы определение минимального размера выборки, у них область действия - нулевая и альтернативная гипотезы

Если под z-критерием понимается именно z-тест пропорций (адаптация хи-квадрат пирсона), то лучше не использовать методы для расчёта мощности, связанные с этими критериями. Количество наблюдений в выборке вы получите, но на какой вопрос ответите и с какой мощностью - останется под вопросом (и как проверять не биномиальные данные соответствующим тестом - тоже)
источник

MN

Maxim Neronov in Machine learning
Valerix 02
или может подскажите, где об этом хорошо написано
В книжке R в действии самое простое и (мне так показалось показался) понятное описание расчёта необходимого размера выборки и величины эффекта. Можно для начала английскую статью про effect size почитать, потому что так или иначе Cohen's d встретится где-нибудь
источник

V

Valerix 02 in Machine learning
спасибо за наводку
источник

АГ

Артём Глазунов... in Machine learning
Valerix 02
Всем привет, я с вопросом
Можно ли применять t- и z-критерии для определения необходимого размера подвыборки, если распределение случайной величины неизвестно?
Ну если распределение неизвестно, то под большим вопросом. Для этих критериев есть ограничения на нормальность выборок. Минимальный размер выборки для нужного эффекта, мощности и уровня значимости вычисляется по-разному для разных критериев. Вообще, при неизвестных распределениях можно было бы использовать непараметрических тесты, но есть ли для них соответствующие методы расчёта мин размера выборки? Я не припомню.. Знаю только для t теста и z теста для пропорций. Если найдёте для непараметрических критериев, поделитесь, если не сложно)
источник

SS

Sergey Salnikov in Machine learning
идеологически - что мешает использовать персентили неизвестного, но апроксимированного (бутстрапами например) распределения
источник

АГ

Артём Глазунов... in Machine learning
Sergey Salnikov
идеологически - что мешает использовать персентили неизвестного, но апроксимированного (бутстрапами например) распределения
Да ничего, вроде, а как время эксперимента для него подсчитать?
источник

AK

Alexey Kholodkov in Machine learning
Нужен совет по pandas - пытаюсь прочитать большой csv и хочу отфильтровать в нем плохие строки: либо по предикату от строки, либо при парсинге значений по столбцам. Параметр error_bad_lines тут не помогает - насколько я понял, он реагирует только на строки с слишком большим количеством колонок. Каким образом можно эти строки отфильтровать до вычитывания файла?
источник

d

dl in Machine learning
Alexey Kholodkov
Нужен совет по pandas - пытаюсь прочитать большой csv и хочу отфильтровать в нем плохие строки: либо по предикату от строки, либо при парсинге значений по столбцам. Параметр error_bad_lines тут не помогает - насколько я понял, он реагирует только на строки с слишком большим количеством колонок. Каким образом можно эти строки отфильтровать до вычитывания файла?
может быть, параметр comment поможет?
источник

AK

Alexey Kholodkov in Machine learning
Плохой - значит не удается его распарсить. Например в dtype указан int, а читается строка
источник

AK

Alexey Kholodkov in Machine learning
dl
может быть, параметр comment поможет?
Не подходит. У меня не подходящие строки могут с разных символов начинаться
источник

SS

Sergey Salnikov in Machine learning
походу штатными средствами - никак. парси python csv, собирай в например словари, и создавай из них DataFrame
источник

d

dl in Machine learning
Alexey Kholodkov
Не подходит. У меня не подходящие строки могут с разных символов начинаться
видимо, тогда парсить ручками
источник

d

dl in Machine learning
Alexey Kholodkov
Не подходит. У меня не подходящие строки могут с разных символов начинаться
А насколько большой csv? В память влазит?
источник

AK

Alexey Kholodkov in Machine learning
dl
А насколько большой csv? В память влазит?
Десятки ГБ. Не влазит. В любом случае хочется уметь его фильтровать
источник

AW

Alex Wolf in Machine learning
так в два прохода - сначала читаешь один, выкидываешь неподходящие строки, пишешь назад в (другой) файл хорошие. Читаешь большими блоками по 10 МБ (или много строк) - процессинг так быстрее будет.
Так подойдёт ?
источник

AK

Alexey Kholodkov in Machine learning
Alex Wolf
так в два прохода - сначала читаешь один, выкидываешь неподходящие строки, пишешь назад в (другой) файл хорошие. Читаешь большими блоками по 10 МБ (или много строк) - процессинг так быстрее будет.
Так подойдёт ?
Нет. Это вообще какой-то костыль. Нужно чтобы работало быстро, а не читать и записывать по нескольку раз
источник

d

dl in Machine learning
Alexey Kholodkov
Десятки ГБ. Не влазит. В любом случае хочется уметь его фильтровать
После фильтра тоже не влазит? Если да, как ты хочешь его считать?
источник

DP

Dmitry Penzar in Machine learning
Valerix 02
Всем привет, я с вопросом
Можно ли применять t- и z-критерии для определения необходимого размера подвыборки, если распределение случайной величины неизвестно?
Если размер выборки, полученный в ответе, достаточно большой - то да, т.к по цпт получите z-test.  Но как правильно написали, тогда нужно понимать про effect size.
источник

AW

Alex Wolf in Machine learning
быстро и десятки гигабайт не бывает - т.к. быстро это in-memory либо работа с большими буферами, влезающими в память
источник