002 - page 419 of 700

419 of 700

индивидуальных различий. Помимо практических применений, эти методы оценки существенны для

теории и исследований индивидуальных различий. Действительно, некоторые ученые, изучающие

личность (см. гл. 13), разработали методы оценки, отвечающие особенностям их подходов.

Характеристики хорошего теста?

Поскольку тесты и другие средства анализа играют важную практическую и научную роль,

необходимо, чтобы они точно измеряли то, для чего предназначены, а именно они должны обладать

надежностью и валидностью.

Тесты также должны быть стандартизированы; под этим понимается, что условия прохождения

теста должны быть одинаковыми для всех тестируемых. Например, инструкции, сопровождающие тест,

должны быть одинаковыми для всех тестируемых лиц.

Надежность. Если тест или метод оценки надежен, он должен давать воспроизводимые и

согласованные результаты. Если тест дает разные результаты при применении его в разных случаях или

при выполнении подсчетов разными людьми, значит, он ненадежен. Простая аналогия — резиновая

линейка. Если неизвестно, насколько она растягивается при каждом измерении, то результаты будут

ненадежны, независимо от того, насколько аккуратно проводилось каждое измерение.

Как правило, надежность оценивается путем соотнесения двух групп показателей. Например,

один и тот же тест можно дать той же группе испытуемых дважды. Если тест надежный, то показатели

испытуемых в первом случае должны высоко коррелировать с показателями во втором. Если это так, то

говорят, что этот тест обладает повторяемой надежностью или временной стабильностью.

Конечно, в реальной практике мало кто захочет давать один и тот же тест тем же людям дважды.

Но есть много ситуаций, когда возникает желание провести аналогичные виды того же теста —

например, когда учащиеся выпускного класса средней школы, намерившиеся поступить в колледж,

хотят дважды пройти Тест школьной успеваемости (Тест Академических Способностей) (Scholastic

Assessment Test, SAT). Чтобы убедиться, что две формы того же теста дают эквивалентные показатели,

обе они предлагаются той же группе людей и затем сопоставляются. Если получена высокая корреляция

между ними, то говорят, что этот тест обладает надежностью при изменении формы. Некоторые из

вопросов, входящих в SAT, на самом деле не связаны с показателями учащегося, но они оцениваются

статистически, чтобы их можно было использовать в будущем в аналогичных формах этого же теста.

Другой общей мерой надежности является внутренняя согласованность теста — то, в какой

степени разные его вопросы или пункты измеряют одно и то же. Это можно оценить путем вычисления

корреляции между показателями, полученными группой индивидов по каждому пункту и всему тесту в

целом. Всякий пункт, не коррелирующий с общим показателем, является ненадежным; он не вносит

вклад в измеряемый тестом параметр. Отбрасывание ненадежных пунктов «очищает» тест, повышая его

внутреннюю согласованность. С увеличением числа надежных элементов в тесте растет и надежность

общего показателя теста.

Результаты большинства тестов и анализов обрабатываются объективно, чаще всего

компьютером. Но иногда требуется оценить умственную деятельность или социальное поведение

субъективно. Знакомый пример этому — экзаменационные испытания. Чтобы оценить надежность

таких субъективных суждений, с помощью независимых судей получают две или более групп данных,

которые сопоставляются друг с другом. Например, два наблюдателя могут независимо оценивать

группу детсадовских детей на агрессию; или двух или более судей могут попросить прочитать прошлые

инаугурационные обращения президента и оценить их с точки зрения оптимистичности или количества

негативных ссылок на Ирак. Если корреляция между оценками судей высока, то говорят, что данный

метод обладает межэкспертным согласием или межоценочной надежностью.

Вообще, хорошо построенный, объективно обработанный тест способности должен

обеспечивать надежность не менее 0,90. Для тестов личности и субъективных суждений, применяемых

в исследовательских целях, приемлемым иногда может быть коэффициент 0,70, но при этом заключения

о конкретном человеке следует делать с большой осторожностью. Как отмечалось выше, надежность

общего показателя теста возрастает с ростом числа надежных пунктов теста. Это же рассуждение

можно применить к субъективным оценкам и повысить надежность метода, добавив больше судей,

оценщиков или наблюдателей. Например, если корреляция оценок двух наблюдателей составляет

только 0,50, то исследователь может добавить третьего аналогичного наблюдателя и

тем самым

повысить межоценочную надежность их суммарных оценок до 0,75; с добавлением четвертого

оценщика надежность возрастет до 0,80.