- Психометрика (psychometrics)
-
Область П. (или психометрии) связана с количественным подходом к анализу тестовых данных. П. включает два раздела: теорет. и прикл. Психометрическая теория обеспечивает исследователей и психологов мат. моделями, используемыми при анализе ответов на отдельные задания или пункты тестов, тесты в целом и наборы тестов. Прикл. П. занимается применением этих моделей и аналитических процедур к конкретным тестовым данным. Четырьмя областями психометрического анализа яв-ся нормирование и приравнивание, оценка надежности, оценка валидности и анализ заданий. Каждая из этих областей содержит набор определенных теорет. положении и конкретные процедуры, используемые при оценке качества работы теста в каждом отдельном случае.
Нормирование и уравнивание
Нормирование тестов — составная часть их стандартизации, обычно включает проведение обследования репрезентативной выборки лиц, определение различных уровней выполнения тестов и перевод сырых тестовых оценок в общую систему показателей.
Тесты иногда приравнивают, когда существуют различные формы того же самого теста. Приравнивание приводит оценки по всем формам к общей шкале. Существуют 4 осн. стратегии приравнивания. Первый метод предполагает проведение каждой формы теста на эквивалентной (напр., случайной отобранной) группе респондентов, а затем оценки по этим различным формам устанавливаются т. о., чтобы равные оценки имели равные процентильные ранги (та же самая пропорция респондентов получает ту же или более низкую оценку). При более точном методе все респонденты заполняют все формы теста, и для определения эквивалентности показателей используются уравнения. Третий часто используемый метод связан с проведением общего теста или части теста со всеми респондентами. Эта общая оценочная процедура служит в качестве «связывающего» теста, к-рый позволяет все последующие измерения привязывать к единой шкале. При проведении обследования с использованием различных форм одного и того же теста в каждую включаются неск. «анкерных заданий», выполняющих функцию такого «связывающего» теста. Сравнительно недавно появившееся семейство статистических моделей тестовых оценок, наз. моделями теории «задание—ответ», оказывается особенно полезным для приравнивания тестов.
Нормирование и приравнивание приобрело новое значение в связи с недавними разраб. в тестировании и получившей широкое распространение системы принятия решений на основе проходных баллов при оценке рез-тов выполнения теста. Эти тесты, наз. критериально-ориентированными тестами, используются в ряде штатов в качестве процедур проверки минимальной компетентности выпускников средней школы, подтверждающей полученный аттестат, и в качестве экзаменов на получение сертификатов, дающих право заниматься различными видами деятельности и профессиями.
Оценка надежности
Надежность и валидность имеют отношение к обобщаемости показателей тестов — определению того, какие выводы по тестовым показателям яв-ся обоснованными (Cronbach et al., 1972). Надежность касается выводов о согласованности измерения. Согласованность определяется по-разному: как временная устойчивость, как сходство между предположительно эквивалентными тестами, как однородность в рамках одного теста или как сравнимость оценок, выносимых экспертами. При использовании метода «тест—ретест» надежность теста устанавливается путем повторного его проведения с той же группой спустя определенный промежуток времени. Затем два полученных набора показателей сравниваются с целью определения степени сходства между ними. При использовании метода взаимозаменяемых форм на выборке обследуемых проводятся два параллельных измерения. Привлечение экспертов («оценщиков») к оценке качества параллельных форм теста дает меру надежности, наз. надежностью оценщиков. Этот метод часто применяют, когда есть необходимость в экспертной оценке.
Оценка валидности
Валидность характеризует качество выводов, получаемых на основе рез-тов проведения измерительной процедуры. Прогностическая валидность оценивает способность измерительных инструментов давать заключения о будущей успешности, напр., в работе или в обучении. Как правило, в этом случае рассчитывается корреляция между прогнозирующим параметром и некой количественной оценкой эффективности в работе или в обучении, наз. критерием. Напр., тестовые показатели кандидатов при поступлении в колледж или профессиональную школу часто сопоставляют с их оценками в период последующего обучения. Получаемый в рез-те коэффициент корреляции наз. коэффициентом валидности. Эти коэффициенты могут корректироваться, напр., когда критериальные оценки характеризуются узким размахом или когда оказывается ненадежным сам критерий. Когда данные по прогнозирующему параметру собираются практически одновременно с измерениями критерия, это наз. исслед. текущей валидности. Поскольку один-единственный инструмент не всегда оказывается способен прогнозировать критерий в той степени, в какой это необходимо, привлекаются множественные предикторы, часто с использованием статистической процедуры множественной регрессии, позволяющей достичь максимального прогноза критерия путем взвешивания вкладов различных тестов.
Содержательная валидность оценивает, насколько полно содержание теста охватывает тестируемую область, и особенно полезна для тестов достижений в обучении. Такие оценки, как правило, выносятся экспертами в тестируемой области.
В последнее время стало принято считать, что конструктная валидность яв-ся родовым понятием по отношению к прогностической и содержательной валидности. Критическим вопросом, задаваемым в отношении конструктной валидности, яв-ся вопрос о том, насколько хорошо данный тест измеряет свойство(а), к-рое(ые) он предположительно должен измерять.
Анализ заданий
Большинство процедур анализа заданий предполагают: а) регистрацию числа испытуемых, давших правильный или неправильный ответ на определенное задание; б) корреляцию отдельных заданий с др. переменными; в) проверку заданий на систематическую ошибку (или «необъективность»). Долю испытуемых, справившихся с заданием теста, наз., возможно не вполне точно, трудностью задания. Способ улучшить задания — подсчитать процент выбора каждого варианта ответа на задание с множественным выбором; полезно тж вычислить средний тестовый показатель испытуемых, выбравших каждый вариант. Эти процедуры позволяют контролировать, чтобы варианты ответов выглядели правдоподобными для неподготовленных испытуемых, но не казались правильными наиболее знающим. Отбор заданий, к-рые сильно коррелируют с показателем полного теста, максимизирует надежность как внутреннюю согласованность теста, тогда как отбор заданий, к-рые сильно коррелируют с внешним критерием, максимизирует его прогностическую валидность. Описательная аналоговая модель этих корреляций наз. характеристической кривой задания; в типичных случаях — это график зависимости доли испытуемых, правильно отвечающих на вопрос, от их суммарного тестового показателя (или к.-н. др. оценки их уровня способности). Для эффективных заданий эти графики представляют собой положительные восходящие кривые, не снижающиеся по мере прироста способности. Процедуры проверки заданий на систематическую ошибку связаны с выявлением тех из них, к-рые неодинаково трудны для различных групп. Др. словами, эти процедуры связаны с установлением общих различий в тестируемой способности и последующим поиском заданий, к-рые имеют отличающиеся коэффициенты трудности для групп меньшинств. Последующее удаление этих заданий из теста приводит к тому, что такой тест будет считаться справедливым. В настоящее время еще только приступили к изучению этих процедур и их реальная ценность пока не определена.
См. также Кластерный анализ, Систематическая ошибка тестов, обусловленная культурными факторами, Анализ заданий, Тесты для отбора кандидатов, Статистика в психологии
К. Ф. Гейзингер
.