пропорция респондентов получает ту же или более низкую оценку). При более точном методе все
респонденты заполняют все формы теста, и для определения эквивалентности показателей
используются уравнения. Третий часто используемый метод связан с проведением общего теста или
части теста со всеми респондентами. Эта общая оценочная процедура служит в качестве
«связывающего» теста, к-рый позволяет все последующие измерения привязывать к единой шкале. При
проведении обследования с использованием различных форм одного и того же теста в каждую
включаются неск. «анкерных заданий», выполняющих функцию такого «связывающего» теста.
Сравнительно недавно появившееся семейство статистических моделей тестовых оценок, наз. моделями
теории «заданиеответ», оказывается особенно полезным для приравнивания тестов.
Нормирование и приравнивание приобрело новое значение в связи с недавними разраб. в
тестировании и получившей широкое распространение системы принятия решений на основе
проходных баллов при оценке рез-тов выполнения теста. Эти тесты, наз. критериально-
ориентированными тестами, используются в ряде штатов в качестве процедур проверки минимальной
компетентности выпускников средней школы, подтверждающей полученный аттестат, и в качестве
экзаменов на получение сертификатов, дающих право заниматься различными видами деятельности и
профессиями.
Оценка надежности
Надежность и валидность имеют отношение к обобщаемости показателей тестов определению
того, какие выводы по тестовым показателям яв-ся обоснованными (Cronbach et al., 1972). Надежность
касается выводов о согласованности измерения. Согласованность определяется по-разному: как
временная устойчивость, как сходство между предположительно эквивалентными тестами, как
однородность в рамках одного теста или как сравнимость оценок, выносимых экспертами. При
использовании метода «тестретест» надежность теста устанавливается путем повторного его
проведения с той же группой спустя определенный промежуток времени. Затем два полученных набора
показателей сравниваются с целью определения степени сходства между ними. При использовании
метода взаимозаменяемых форм на выборке обследуемых проводятся два параллельных измерения.
Привлечение экспертов («оценщиков») к оценке качества параллельных форм теста дает меру
надежности, наз. надежностью оценщиков. Этот метод часто применяют, когда есть необходимость в
экспертной оценке.
Оценка валидности
Валидность характеризует качество выводов, получаемых на основе рез-тов проведения
измерительной процедуры. Прогностическая валидность оценивает способность измерительных
инструментов давать заключения о будущей успешности, напр., в работе или в обучении. Как правило,
в этом случае рассчитывается корреляция между прогнозирующим параметром и некой количественной
оценкой эффективности в работе или в обучении, наз. критерием. Напр., тестовые показатели
кандидатов при поступлении в колледж или профессиональную школу часто сопоставляют с их
оценками в период последующего обучения. Получаемый в рез-те коэффициент корреляции наз.
коэффициентом валидности. Эти коэффициенты могут корректироваться, напр., когда критериальные
оценки характеризуются узким размахом или когда оказывается ненадежным сам критерий. Когда
данные по прогнозирующему параметру собираются практически одновременно с измерениями
критерия, это наз. исслед. текущей валидности. Поскольку один-единственный инструмент не всегда
оказывается способен прогнозировать критерий в той степени, в какой это необходимо, привлекаются
множественные предикторы, часто с использованием статистической процедуры множественной
регрессии, позволяющей достичь максимального прогноза критерия путем взвешивания вкладов
различных тестов.
Содержательная валидность оценивает, насколько полно содержание теста охватывает
тестируемую область, и особенно полезна для тестов достижений в обучении. Такие оценки, как
правило, выносятся экспертами в тестируемой области.
В последнее время стало принято считать, что конструктная валидность яв-ся родовым понятием
по отношению к прогностической и содержательной валидности. Критическим вопросом, задаваемым в
отношении конструктной валидности, яв-ся вопрос о том, насколько хорошо данный тест измеряет
свойство(а), к-рое(ые) он предположительно должен измерять.
Анализ заданий
Большинство процедур анализа заданий предполагают: а) регистрацию числа испытуемых,
давших правильный или неправильный ответ на определенное задание; б) корреляцию отдельных
заданий с др. переменными; в) проверку заданий на систематическую ошибку (или «необъективность»).
|