Правило трех сигм
Правило трех сигм (3-sigma rule) - правило, утверждающее, что вероятность того, что случайная величина отклонится от своего математического ожидания более чем на три среднеквадратических отклонения, не превышает 0,28%. Правило справедливо только для случайных величин, распределенных по нормальному закону.
На рисунке видно, что в пределах одного среднеквадратического отклонения лежит 68,26% значений, принимаемых нормально распределенной случайной величиной (соответствует доли площади под кривой распределения). В пределах двух среднеквадратических отклонений — уже 95,44%, а в пределах трех — 99,72%. Это означает, что вероятность того, что случайная величина примет значение, отклоняющееся от математического ожидания больше чем на три среднеквадратических отклонения, не превышает 0,28%
В теории вероятностей и статистике среднеквадрати́ческое отклоне́ние — наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания (аналога среднего арифметического с бесконечным числом исходов). Обычно он означает квадратный корень из дисперсии случайной величины, но иногда могут означать тот или иной вариант оценки этого значения.
В литературе обычно обозначают греческой буквой сигма. В статистике принято два обозначения: sigma — для генеральной совокупности и sd (с англ. standard deviation — стандартное отклонение) — для выборки.
Пример вычисления стандартного отклонения
Предположим, что интересующая нас группа (генеральная совокупность) это класс из восьми учеников, которым выставляются оценки по 10-бальной системе. Так как мы оцениваем всю группу, а не её выборку, можно использовать стандартное отклонение на основании смещённой оценки дисперсии. Для этого берём квадратный корень из среднего арифметического квадратов отклонений величин от их среднего значения.
Пусть оценки учеников класса следующие:
2, 4, 4, 4, 5, 5, 7, 9
Тогда средняя оценка равна:
m = (2+4+4+4+5+5+7+9) / 8 = 5
Вычислим квадраты отклонений оценок учеников от их средней оценки:
(2-5)^2 = (-3)^2 =9
(4-5)^2 = (-1)^2 =1
(4-5)^2 = (-1)^2 =1
(4-5)^2 = (-1)^2 =1
(5-5)^2 = 0^2 =0
(5-5)^2 = 0^2 =0
(7-5)^2 = 2^2 =4
(9-5)^2 = 4^2 =16
Среднее арифметическое этих значений называется дисперсией:
sigms^2 = (9+1+1+1+0+0+4+16)/8=4
Стандартное отклонение равно квадратному корню дисперсии:
sigma=2
Эта формула справедлива только если эти восемь значений и являются генеральной совокупностью. Если бы эти данные были случайной выборкой из какой-то большой совокупности (например, оценки восьми случайно выбранных учеников большого города), то в знаменателе формулы для вычисления дисперсии вместо n = 8 нужно было бы поставить n − 1 = 7:
sigms^2 = (9+1+1+1+0+0+4+16)/7~4.57
и стандартное отклонение равнялось бы:
sigma~2.14
Этот результат называется стандартным отклонением на основании несмещённой оценки дисперсии. Деление на n − 1 вместо n даёт неискажённую оценку дисперсии для больших генеральных совокупностей.