6. Среднее отклонение это более точный показатель разброса, чем диапазон распределения.
Для расчета среднего отклонения вычисляют среднюю разность между всеми значениями данных и
средней арифметической, или, упрощенно,
Среднее отклонение =
n
d
|
|
.
7. Еще один показатель разброса, вычисляемый из среднего отклонения, это варианса
(дисперсия), равная среднему квадрату разностей между значениями всех данных и средней:
Варианса =
n
d
2
.
8. Наиболее употребительным показателем разброса служит стандартное отклонение, равное
квадратному корню из вариансы. Таким образом, это квадратный корень из суммы квадратов всех
отклонений от средней:
Стандартное отклонение =
n
d
2
или
1
2
n
d
.
9. Важное свойство стандартного отклонения заключается в том, что независимо от его
абсолютной величины в нормальном распределении оно всегда соответствует одинаковому проценту
данных, располагающихся по обе стороны от средней: 68% результатов располагаются в пределах
одного стандартного отклонения в обе стороны от средней, 95% в пределах двух стандартных
отклонений и 99,7% в пределах трех стандартных отклонений.
10. С помощью перечисленных выше показателей можно осуществить оценку различий между
двумя или несколькими распределениями, позволяющую проверить, насколько эти различия могут быть
экстраполированы на популяцию, из которой взяты выборки. Для этого применяют методы
индуктивной статистики.
II. Индуктивная статистика
1. Задача индуктивной статистики заключается в том, чтобы оценить значимость тех различий,
которые могут быть между двумя распределениями, с целью выяснить, можно ли распространить
найденную закономерность на всю популяцию, из которой были взяты выборки.
2. Для того чтобы определить, достоверны ли различия между распределениями, следует
выдвинуть гипотезу,
которую нужно будет затем проверить статистическими методами. Нулевой
гипотезой называют предположение, согласно которому различие между распределениями
недостоверно, тогда как альтернативная гипотеза утверждает противоположное.
3. В том случае, если данных достаточно,
если эти данные количественные и подчиняются
нормальному распределению,
для проверки гипотез используют параметрические критерии.
Если же
данных мало либо они являются порядковыми или качественными (см. дополнение Б.1), используют
непараметрические критерии.
4. Из параметрических критериев наиболее эффективен и чаще всего используется критерий t
Стьюдента. Этот критерий позволяет сравнить средние и стандартные отклонения для двух
распределений. В случае если эти показатели принадлежат независимым выборкам, используют
формулу
t =
2
2
2
1
2
1
2
1
n
s
n
s
X
X
.
Для сопряженных выборок используют иную формулу:
t =
1
)
(
2
2
n
d
d
n
d
.
5. Если необходимо сравнить три или большее число распределений, используют иной
параметрический метод дисперсионный анализ. При этом с помощью метода Шеффе можно выявить
пары выборок, различия между которыми достоверны либо недостоверны.
6. Критерий ?²
(хи-квадрат) это непараметрический критерий, позволяющий проверить,
являются ли две переменные независимыми друг от друга. По этому методу сравнивают, как
|