Правило трех сигм
Правило трех сигм (3-sigma rule) - правило, утверждающее, что вероятность того, что случайная величина отклонится от своего математического ожидания более чем на три среднеквадратических отклонения, практически равна нулю. Правило справедливо только для случайных величин, распределенных по нормальному закону.
На рисунке видно, что в пределах одного среднеквадратического отклонения лежит 68,26% значений, принимаемых нормально распределенной случайной величиной (соответствует доли площади под кривой распределения). В пределах двух среднеквадратических отклонений — уже 95,44%, а в пределах трех — 99,72%. Это означает, что вероятность того, что случайная величина примет значение, отклоняющееся от математического ожидания больше чем на три среднеквадратических отклонения, не превышает 0,28%
В теории вероятностей и статистике среднеквадрати́ческое отклоне́ние — наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания (аналога среднего арифметического с бесконечным числом исходов). Обычно он означает квадратный корень из дисперсии случайной величины, но иногда могут означать тот или иной вариант оценки этого значения.
В литературе обычно обозначают греческой буквой сигма. В статистике принято два обозначения: sigma — для генеральной совокупности и sd (с англ. standard deviation — стандартное отклонение) — для выборки.
Пример вычисления стандартного отклонения
Предположим, что интересующая нас группа (генеральная совокупность) это класс из восьми учеников, которым выставляются оценки по 10-бальной системе. Так как мы оцениваем всю группу, а не её выборку, можно использовать стандартное отклонение на основании смещённой оценки дисперсии. Для этого берём квадратный корень из среднего арифметического квадратов отклонений величин от их среднего значения.
Пусть оценки учеников класса следующие: 2, 4, 4, 4, 5, 5, 7, 9
Тогда средняя оценка равна:
{\displaystyle \mu ={\frac {2+4+4+4+5+5+7+9}{8}}=5}{\displaystyle \mu ={\frac {2+4+4+4+5+5+7+9}{8}}=5} Вычислим квадраты отклонений оценок учеников от их средней оценки:
{\displaystyle {\begin{array}{lll}(2-5)^{2}=(-3)^{2}=9&&(5-5)^{2}=0^{2}=0\\(4-5)^{2}=(-1)^{2}=1&&(5-5)^{2}=0^{2}=0\\(4-5)^{2}=(-1)^{2}=1&&(7-5)^{2}=2^{2}=4\\(4-5)^{2}=(-1)^{2}=1&&(9-5)^{2}=4^{2}=16\\\end{array}}}{\displaystyle {\begin{array}{lll}(2-5)^{2}=(-3)^{2}=9&&(5-5)^{2}=0^{2}=0\\(4-5)^{2}=(-1)^{2}=1&&(5-5)^{2}=0^{2}=0\\(4-5)^{2}=(-1)^{2}=1&&(7-5)^{2}=2^{2}=4\\(4-5)^{2}=(-1)^{2}=1&&(9-5)^{2}=4^{2}=16\\\end{array}}} Среднее арифметическое этих значений называется дисперсией:
{\displaystyle \sigma ^{2}={\frac {9+1+1+1+0+0+4+16}{8}}=4}{\displaystyle \sigma ^{2}={\frac {9+1+1+1+0+0+4+16}{8}}=4} Стандартное отклонение равно квадратному корню дисперсии:
{\displaystyle \sigma ={\sqrt {4}}=2}{\displaystyle \sigma ={\sqrt {4}}=2} Эта формула справедлива только если эти восемь значений и являются генеральной совокупностью. Если бы эти данные были случайной выборкой из какой-то большой совокупности (например, оценки восьми случайно выбранных учеников большого города), то в знаменателе формулы для вычисления дисперсии вместо n = 8 нужно было бы поставить n − 1 = 7:
{\displaystyle \sigma ^{2}={\frac {9+1+1+1+0+0+4+16}{7}}\approx 4,57}{\displaystyle \sigma ^{2}={\frac {9+1+1+1+0+0+4+16}{7}}\approx 4,57} и стандартное отклонение равнялось бы:
{\displaystyle \sigma ={\sqrt {4,57}}\approx 2,14}{\displaystyle \sigma ={\sqrt {4,57}}\approx 2,14} Этот результат называется стандартным отклонением на основании несмещённой оценки дисперсии. Деление на n − 1 вместо n даёт неискажённую оценку дисперсии для больших генеральных совокупностей.