Как начать разбираться в статистике: гайд «Ножа»«Я на обед ем капусту, мой сосед ест котлеты, а в среднем мы с ним едим голубцы», — это самая популярная шутка про статистику. «Есть три вида лжи: маленькая ложь, большая ложь и статистика», — это вторая по популярности.
На этом шутки заканчиваются, начинается
выборка и
дисперсия.
Выборка — это набор данных, которые попали в исследование. Она может быть репрезентативной, не совсем или совсем не. К примеру, мы хотим посчитать среднюю зарплату в городе. Наша выборка по демографическим соотношениям должна совпадать с общегородской статистикой — тогда она будет репрезентативной.
Дисперсия — это разброс данных в нашем исследовании, этот параметр позволяет понять, что вообще с выборкой делать. Допустим, мы хотим посчитать среднюю температуру по больнице. Дисперсия будет от +34 до +42 градусов по Цельсию, она достаточно низкая, чтобы применить метод среднего арифметического. А вот если добавить в выборку труп комнатной температуры, дисперсия окажется слишком большой, чтобы выборка была репрезентативной.
Все, вы теперь уже знаете о статистике больше, чем среднестатистический россиянин. Если, конечно, выборка для поиска этого россиянина была достаточно репрезентативной. Дальше нужно разобраться, что такое
медиана и
мода. Об этом — в архиве «Ножа».
https://knife.media/statistics-guide/