Обычно в таких материалах собирают «все самое нужное» игнорируя, все самое важное. Тут именно про это, начиная с базы и заканчивая тем, на что и как это влияет.
Переменных всего два вида — непрерывные (с цифрами после точки 5.3452) и дискретные (без цифр после точки — 1 или 2 и тп)
Среднее — понятно
Медиана — прикольно с той точки зрения, что показывает где находятся 50% значения из выборки — те 50 процентов, которые от нуля до числа
Боксплот показываем медиану и 25% процентилей сверху и снизу. Ее же можно цифрами увидеть при describe()
Стандартное отклонение (std) — это когда из исходного числа, вычитается среднее по выборке
Среднее отклонение != стандартному отклонению
Среднее отклонение — когда берем среднее по модулю всех цифр(считай все цифры считаем со знаком плюс) из стандартного отклонения! По другому, также можно посчитать, что сумма разности исходного числа и среднего по выборке возводится в квадрат, а затем делится на длину выборке минус один. Все это берется в корень.
Суть стд и среднего отклонения — посмотреть, насколько силен разброс цифр в выборке от среднего. Тут важно, что стд дает большую цифру и вводит в заблуждение
Распределения бывают разные, на самом деле их много, и оно не только «Нормальное». Я долго думаю и не мог найти, а что такое равномерное распределение, например, для подброшенной монетки? Оказалось все супер просто. Биноминальное распределение выглядит так:
0 и 1, орел и решка соответственно, то как бы при большой выборке столбики будут выглядеть одинаково)))
ЗБЧ или закон больших чисел — с увеличением выборки среднее начинает сходиться к истинно-среднему
ЦПТ или центральная предельная теорема — с увеличением выборки, распределение среднего будет распределено нормально (нужна чтобы понимать, что среднее всегда распределено нормально, и это дает обоснование для понимания того, что служит источником (генератором) выборки). Звучит тяжело, но суть такая, что распределение всегда не ясно, а знание генератора дает возможность заниматься статистикой. Например проводить z-тест
Бутстрэп/Бутстрап (Bootstrap) он же Монте-Карло, метод который позволяет генерировать выборки! Генерация выборок как бы позволяет не использовать статистический тест, а считать вероятность из получившихся выборок лол
Пропорции — на Z-test
Z-test основано на нормальном распределении, на ЦПТ (среднее выборочное будет распределено нормально)