Правило трех сигм

Материал из Терминологии
Перейти к навигации Перейти к поиску

Правило трех сигм (3-sigma rule) - правило, утверждающее, что вероятность того, что случайная величина отклонится от своего математического ожидания более чем на три среднеквадратических отклонения, не превышает 0,28%. Правило справедливо только для случайных величин, распределенных по нормальному закону.

Правило трех сигм (3-sigma rule)

На рисунке видно, что в пределах одного среднеквадратического отклонения лежит 68,26% значений, принимаемых нормально распределенной случайной величиной (соответствует доли площади под кривой распределения). В пределах двух среднеквадратических отклонений — уже 95,44%, а в пределах трех — 99,72%. Это означает, что вероятность того, что случайная величина примет значение, отклоняющееся от математического ожидания больше чем на три среднеквадратических отклонения, не превышает 0,28%

В теории вероятностей и статистике среднеквадрати́ческое отклоне́ние — наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания (аналога среднего арифметического с бесконечным числом исходов). Обычно он означает квадратный корень из дисперсии случайной величины, но иногда могут означать тот или иной вариант оценки этого значения.

В литературе обычно обозначают греческой буквой сигма. В статистике принято два обозначения: sigma — для генеральной совокупности и sd (с англ. standard deviation — стандартное отклонение) — для выборки.


Пример вычисления стандартного отклонения

Предположим, что интересующая нас группа (генеральная совокупность) это класс из восьми учеников, которым выставляются оценки по 10-бальной системе. Так как мы оцениваем всю группу, а не её выборку, можно использовать стандартное отклонение на основании смещённой оценки дисперсии. Для этого берём квадратный корень из среднего арифметического квадратов отклонений величин от их среднего значения.

Пусть оценки учеников класса следующие:

2, 4, 4, 4, 5, 5, 7, 9

Тогда средняя оценка равна:

m = (2+4+4+4+5+5+7+9) / 8 = 5

Вычислим квадраты отклонений оценок учеников от их средней оценки:

(2-5)^2 = (-3)^2 =9

(4-5)^2 = (-1)^2 =1

(4-5)^2 = (-1)^2 =1

(4-5)^2 = (-1)^2 =1

(5-5)^2 = 0^2 =0

(5-5)^2 = 0^2 =0

(7-5)^2 = 2^2 =4

(9-5)^2 = 4^2 =16


Среднее арифметическое этих значений называется дисперсией:

sigms^2 = (9+1+1+1+0+0+4+16)/8=4


Стандартное отклонение равно квадратному корню дисперсии:

sigma=2


Эта формула справедлива только если эти восемь значений и являются генеральной совокупностью. Если бы эти данные были случайной выборкой из какой-то большой совокупности (например, оценки восьми случайно выбранных учеников большого города), то в знаменателе формулы для вычисления дисперсии вместо n = 8 нужно было бы поставить n − 1 = 7:

sigms^2 = (9+1+1+1+0+0+4+16)/7~4.57

и стандартное отклонение равнялось бы:

sigma~2.14

Этот результат называется стандартным отклонением на основании несмещённой оценки дисперсии. Деление на n − 1 вместо n даёт неискажённую оценку дисперсии для больших генеральных совокупностей.