Size: a a a

Machine learning

2021 January 11

AK

Alexey Kholodkov in Machine learning
dl
После фильтра тоже не влазит? Если да, как ты хочешь его считать?
После - влазит
источник

d

dl in Machine learning
dl
После фильтра тоже не влазит? Если да, как ты хочешь его считать?
сам спросил, сам ответил
https://pandas.pydata.org/pandas-docs/stable/user_guide/scale.html
источник

d

dl in Machine learning
Alexey Kholodkov
После - влазит
Ну тогда в чем проблема читать большими кусками, фильтруя на ходу и скидывая в df?
источник

DP

Dmitry Penzar in Machine learning
Valerix 02
Всем привет, я с вопросом
Можно ли применять t- и z-критерии для определения необходимого размера подвыборки, если распределение случайной величины неизвестно?
источник

SZ

Sergei Zorin in Machine learning
Alexey Kholodkov
После - влазит
dask не пробовали использовать?
источник

AK

Alexey Kholodkov in Machine learning
Похоже вы намекаете на chunking. С ним мне не понятно как типы парсить, ведь я не смогу указать dtype при первичной загрузке. Похоже что придется сначала фрем для фильтрации загружать, а потом создавать еще один и типы в нем парсить
источник

d

dl in Machine learning
Alexey Kholodkov
Похоже вы намекаете на chunking. С ним мне не понятно как типы парсить, ведь я не смогу указать dtype при первичной загрузке. Похоже что придется сначала фрем для фильтрации загружать, а потом создавать еще один и типы в нем парсить
не, это я просто ответил на свой вопрос, что делать, если в память не вмещается датасет. в вашем случае читать по кускам ручками, отбрасывая ненужные строки, потом оставшееся уже в пандас грузить.
источник

d

dl in Machine learning
Alexey Kholodkov
Похоже вы намекаете на chunking. С ним мне не понятно как типы парсить, ведь я не смогу указать dtype при первичной загрузке. Похоже что придется сначала фрем для фильтрации загружать, а потом создавать еще один и типы в нем парсить
прочитал про загрузку чанками. тоже может сработать. расскажите, пожалуйста, как сделаете, как именно сделали
источник

АГ

Артём Глазунов... in Machine learning
Но ведь распределение выборок заранее неизвестно, а тут z тест
источник

AK

Alexey Kholodkov in Machine learning
dl
прочитал про загрузку чанками. тоже может сработать. расскажите, пожалуйста, как сделаете, как именно сделали
Хорошо
источник

DP

Dmitry Penzar in Machine learning
Артём Глазунов
Но ведь распределение выборок заранее неизвестно, а тут z тест
Ну что вы хотите сравнивать? Если сравниваете средние и размер выборок ожидаете, что будет больше 50, то можно по цпт использовать ztest
источник

АГ

Артём Глазунов... in Machine learning
Dmitry Penzar
Ну что вы хотите сравнивать? Если сравниваете средние и размер выборок ожидаете, что будет больше 50, то можно по цпт использовать ztest
Просто если собираем, к примеру, выборку, где вероятнее всего маленькие значения(к примеру, хотим смотреть средний чек по клиентам). Будет экспоненциальное распределение примерно. Т.е. для корректности цпт может потребоваться довольно большая выборка. А эффект ищем тоже большой, ну радикальные изменения у нас проверяются в логике продукта, к примеру ) Тогда нужный размер выборки может получиться маленьким. Но при таком размере n цпт уже некорректна. Вот вопрос тогда. Получается, нужно прикинуть, при каком n цпт будет корректна сначала, но распределения у нас нет. Замкнутый круг. Или я вечером плохо соображаю уже...
источник

DP

Dmitry Penzar in Machine learning
Ну вы по формуле подсчитайте, а дальше прикидывайте. Среднее из экспоненциального распределения вроде быстро к цпт сходится, можете в питоне/r проверите
источник

АГ

Артём Глазунов... in Machine learning
Все же нужно примерно сначала представлять, что собираем, какое примерно распределение, из практики все же, тогда да, можно прикинуть предварительно зону корректности... Тут согласен
источник

АГ

Артём Глазунов... in Machine learning
Ну или по аналогии вывести формулы для n для непараметрических аналогов, или бутстрап использовать для формы нулевого распределения. Но тут самому выводить, я не видел примеров таких...
источник

DP

Dmitry Penzar in Machine learning
Ну вы посмотрите, какое число формула выдала.. если больше 50, то вы в зоне, где предположения этой формулы ок.
источник

DP

Dmitry Penzar in Machine learning
Для бутстрэпа тоже не видел
источник

АГ

Артём Глазунов... in Machine learning
Dmitry Penzar
Ну вы посмотрите, какое число формула выдала.. если больше 50, то вы в зоне, где предположения этой формулы ок.
Остаётся 1 момент, у нас случай с неизвестной дисперсией. Не слишком ли грубое предположение тогда о корректности использования цпт с выборочным и оценками дисперсии со скошенным распределением ... Для нескошенного статистика будет, вероятно, распределена близко к t распределению, которое при таких значениях  n больше 100 сойдется к нормальному. Короче говоря, да, it depends...
источник

DP

Dmitry Penzar in Machine learning
Не ну если у вас предполагается ужасное распределение исходное, то будет боль. Но в большинстве  случаев оно не ужасное.

Я проверил, для дефолтного экспоненциального сходимость быстрая.
Опять же, если выборка большая, то дисперсия уже не недооценивает дисперсию генеральной совокупности хоть сколь-нибудь существенно, потому z-test - ок.
источник

DP

Dmitry Penzar in Machine learning
тем не менее вы можете использовать t-test, просто получите более консервативный метод
источник