случайных выборок, точнее, параметры случайных выборок, распределяются
в соответствии с законом, который называется законом нормального
распределения. Его суть заключается в том, что наибольшее число
выборочных средних располагается в середине ряда плотности
распределения, а крайние значения маловероятны. Чем больше число
наблюдений, тем ближе распределение выборочных средних к нормальной
кривой. Это дает возможность опираться на законы вероятностей и
прогнозировать надежность выборочных наблюдений.
При идеальном случайном отборе в пределах одного среднего
квадратического отклонения варьируют результаты 68,27% всех возможных
выборок, в пределах двух средних квадратических отклонений 95,45%, а в
пределах трех «сигм» 99,73%.
Это означает, что при достаточно большом числе замеров в среднем из
каждых 1000 выборок 683 дадут значения, не выходящие за пределы одной
«сигмы», 954 не выйдут за пределы двух «сигм», а 997 за пределы трех
«сигм». Это означает также, что при любой выборке есть риск ошибиться. В
среднем лишь в трех выборках из 1000 ошибка будет больше заданных
значений. Увеличим точность приближения к средней всех выборочных
средних до двух «сигм», и риск ошибиться возрастет до 46 случаев из 1000;
за пределы одного среднего квадратического отклонения выйдут 317
выборок из 1000 (рис. 5.2).
«Правило трех сигм» позволяет заранее оценить вероятность ошибки
случайной выборки. Чем выше требования к точности, тем выше риск
ошибки и соответственно ниже вероятность правильного ответа. Вообще,
выборка аналогична стрельбе в цель: чем больше по размеру мишень, тем
выше вероятность попадания. Если сделать 1000 выстрелов из оружия,
прицел которого установлен правильно, 683 выстрела будут удачными в том
смысле, что не выйдут за пределы одной «сигмы».
«Правило трех сигм» действует применительно к случайным процессам
выпадениям правильного «кубика», монетки, шарам. Но мы знаем, что и
вариация выборочной средней является случайным процессом: средняя всех
выборочных средних в точности равна генеральной средней, а среднее
квадратическое отклонение тоже известно. Поэтому в любом ряду
распределения можно установить пределы, в которых находятся выборочные
средние с вероятностью 683 из 1000; 954 из 1000 и 997 из 1000.
Вернемся к условному примеру, где производилась выборка из двух
человек в генеральной совокупности из пяти человек. Средние затраты
времени на чтение составили в 25 выборках 40 мин. Среднее квадратическое
отклонение 17,3 мин. Сейчас мы можем подсчитать область распределения,
соответствующую одному среднему квадратическому отклонению: нижний
предел 40 мин. 17,3 мин = 22,7 мин;
179
12*
|