Обычно в таких материалах собирают «все самое нужное» игнорируя, все самое важное. Тут именно про это, начиная с базы и заканчивая тем, на что и как это влияет.

Переменных всего два вида — непрерывные (с цифрами после точки 5.3452) и дискретные (без цифр после точки — 1 или 2 и тп)

Среднее — понятно

Медиана — прикольно с той точки зрения, что показывает где находятся 50% значения из выборки — те 50 процентов, которые от нуля до числа

Боксплот показываем медиану и 25% процентилей сверху и снизу. Ее же можно цифрами увидеть при describe()

Стандартное отклонение (std) — это когда из исходного числа, вычитается среднее по выборке

Среднее отклонение != стандартному отклонению

Среднее отклонение — когда берем среднее по модулю всех цифр(считай все цифры считаем со знаком плюс) из стандартного отклонения! По другому, также можно посчитать, что сумма разности исходного числа и среднего по выборке возводится в квадрат, а затем делится на длину выборке минус один. Все это берется в корень.

Суть стд и среднего отклонения — посмотреть, насколько силен разброс цифр в выборке от среднего. Тут важно, что стд дает большую цифру и вводит в заблуждение

Распределения бывают разные, на самом деле их много, и оно не только «Нормальное». Я долго думаю и не мог найти, а что такое равномерное распределение, например, для подброшенной монетки? Оказалось все супер просто. Биноминальное распределение выглядит так:

0 и 1, орел и решка соответственно, то как бы при большой выборке столбики будут выглядеть одинаково)))

ЗБЧ или закон больших чисел — с увеличением выборки среднее начинает сходиться к истинно-среднему

ЦПТ или центральная предельная теорема — с увеличением выборки, распределение среднего будет распределено нормально (нужна чтобы понимать, что среднее всегда распределено нормально, и это дает обоснование для понимания того, что служит источником (генератором) выборки). Звучит тяжело, но суть такая, что распределение всегда не ясно, а знание генератора дает возможность заниматься статистикой. Например проводить z-тест

Бутстрэп/Бутстрап (Bootstrap) он же Монте-Карло, метод который позволяет генерировать выборки! Генерация выборок как бы позволяет не использовать статистический тест, а считать вероятность из получившихся выборок лол

Пропорции — на Z-test

Z-test основано на нормальном распределении, на ЦПТ (среднее выборочное будет распределено нормально)