для описания связей между переменными.
Частотнее распределение показывает, сколько раз каждый качественный или количественный
показатель (либо интервал таких показателей) встречается в массиве данных. Кроме того, нередко
приводятся относительные частоты процент ответов каждого типа. Частотное распределение
обеспечивает быстрое проникновение в структуру данных, к-рого было бы трудно достичь, работая
непосредственно с первичными данными. Для наглядного представления частотных данных часто
используются разнообразные виды графиков.
Меры центральной тенденции
это итоговые С., описывающие то, что яв-ся типичным для
распределения. Мода определяется как наиболее часто встречающееся наблюдение (значение, категория
и т. д.). Медиана
это значение, к-рое делит распределение пополам, так что одна его половина
включает все значения выше медианы, а другая все значения ниже медианы. Среднее вычисляется
как среднее арифметическое всех наблюденных значений. Какая из мер мода, медиана или среднее
будет лучше всего описывать распределение, зависит от его формы. Если распределение
симметричное и унимодальное (имеющее одну моду), среднее медиана и мода будут просто совпадать.
На среднее особенно влияют «выбросы», сдвигая его величину в сторону крайних значений
распределения, что делает среднее арифметическое наименее полезной мерой сильно скошенных
(асимметричных) распределений.
Др. полезными описательными характеристиками распределений служат меры изменчивости, т.
е. того, в какой степени различаются значения переменной в вариационном ряду. Два распределения
могут иметь одинаковые средние, медианы и моды, но существенно различаться по степени
изменчивости значений. Изменчивость оценивается двумя С.: дисперсией и стандартным отклонением.
Меры относительного положения включают в себя процентили и нормированные оценки,
используемые для описания местоположения конкретного значения переменной относительно
остальных ее значений, входящих в данное распределение. Велковиц с соавторами определяют
процентиль как «число, показывающее процент случаев в определенной референтной группе с равными
или меньшими оценками». Т. о., процентиль дает более точную информ., чем просто сообщение о том,
что в данном распределении некое значение переменной попадает выше или ниже среднего, медианы
или моды.
Нормированные оценки (обычно называемые z-оценками) выражают отклонение от среднего в
единицах стандартного отклонения (?). Нормированные оценки полезны тем, что их можно
интерпретировать относительно стандартизованного нормального распределения (z-распределения)
симметричной колоколообразной кривой с известными свойствами: средним, равным 0, и стандартным
отклонением, равным 1. Так как z-оценка имеет знак (+ или ), она сразу показывает, лежит ли
наблюденное значение переменной выше или ниже среднего (m). А поскольку нормированная оценка
выражает значения переменной в единицах стандартного отклонения, она показывает, насколько
редким яв-ся каждое значение: примерно 34% всех значений попадает в интервал от т до т + 1? и 34%
в интервал от т до т - 1?; по 14% в интервалы от т + 1? до т + 2? и от т - 1? до т - 2?; и по 2%
в интервалы от т + 2? до т + 3? и от т - 2? до т - 3?.
Связи между переменными. Регрессия и корреляция относятся к тем способам, к-рые чаще
всего используются для описания связей между переменными. Два разных измерения, полученных по
каждому элементу выборки, можно отобразить в виде точек в декартовой системе координат (х, у)
диаграммы рассеяния, являющейся графическим представлением связи между этими измерениями.
Часто эти точки образуют почти прямую линию, свидетельствующую о линейной связи между
переменными. Для получения линии регрессии
мат. уравнения линии наилучшего соответствия
множеству точек диаграммы рассеяния используются численные методы. После выведения линии
регрессии появляется возможность предсказывать значения одной переменной по известным значениям
другой и, к тому же, оценивать точность предсказания.
Коэффициент корреляции (r) это количественный показатель тесноты линейной связи между
двумя переменными. Методики вычисления коэффициентов корреляции исключают проблему
сравнения разных единиц измерения переменных. Значения r изменяются в пределах от -1 до +1. Знак
отражает направление связи. Отрицательная корреляция означает наличие обратной зависимости, когда
с увеличением значений одной переменной значения др. переменной уменьшаются. Положительная
корреляция свидетельствует о прямой зависимости, когда при увеличении значений одной переменной
увеличиваются значения др. переменной. Абсолютная величина r показывает силу (тесноту) связи: r =
±1 означает прямолинейную зависимость, а r = 0 указывает на отсутствие линейной связи. Величина r²
показывает процент дисперсии одной переменной, к-рый можно объяснить вариацией др. переменной.
|