Надёжность и валидность психодиагностических методик
Прежде чем психодиагностические методики могут быть использованы для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. К числу основных критериев оценки психодиагностических методик относятся надежность и валидность.
Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк, Е. Хаген и др.). Ими были разработаны формально-логический и математико-статистический аппарат (прежде всего корреляционный метод и фактический анализ) обоснования степени соответствия методик отмеченным критериям.
В традиционной тестологии термин «надёжность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых.
Надёжность методики – это критерий, который говорит о точности психологических измерений, то есть позволяет судить о том, насколько внушают доверие полученные результаты.
Это согласованность результатов тестирования испытуемых в разные моменты времени, при первичном и вторичном тестировании и с использованием разных по эквивалентности, по содержанию заданий. Надежность характеризует тесты свойств, но не состояний. Свойства:
- Воспроизводимость рез-тов исследования.
- Точность измерения.
- Устойчивость результатов.
Степень надёжности методик зависит от многих причин. Среди негативных факторов наиболее часто называются следующие:
- нестабильность диагностируемого свойства;
- несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечётко сформулированы указания по предъявлению методики испытуемым и т.д.);
- меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещённость помещения, наличие или отсутствие посторонних шумов и т.д.);
- различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);
- колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом – утомление и т.д.);
- элементы субъективности в способах оценки и интерпретации результатов (когда ведётся протоколирование ответов испытуемых, оценивают ответы по степени полноты, оригинальности и т.д.).
Одним из важнейших средств повышения надежности методики является единообразие процедуры обследования, его строгая регламентация: одинаковая обстановка, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми и так далее.
На характеристику надёжности методик большое влияние оказывает исследуемая выборка. Она может, как снижать, так и завышать этот показатель, например, надежность, может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. Поэтому в руководстве обычно делается описание выборки, на котором определялась надёжность методики.
В настоящее время надежность все чаще определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п.
Разновидностей надёжности методик так же много, как и условий, влияющих на результаты диагностических испытаний. Так как все виды надёжности отражают степень согласованности двух независимо полученных рядов показателей, то математико-статистический приём, с помощью которого устанавливается надёжность методики, - это корреляции (по Пирсону или Спирмену). Надёжность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот.
К.М. Гуревич предложил толковать надёжность как:
- надёжность самого измерительного инструмента (коэффициент надежности);
- стабильность изучаемого признака (коэффициент стабильности);
- константность, т.е. относительную независимость результатов от Личности экспериментатора (коэффициент константности).
Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надёжности; показатель, характеризующий стабильность измеряемого свойства, - коэффициентом стабильности; а показатель оценки влияния Личности экспериментатора – коэффициентом константности. Именно в таком порядке рекомендуется осуществлять проверку методики: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого при необходимости заняться критерием константности. (Надёжность: ретестовая, параллельных форм, частей тела, по внутренней согласованности, факторно-дисперсионная).
Определение надежности измерительного инструмента. От того как составлена методика, насколько правильно подобраны задания, насколько она однородна зависит точность, объективность измерения.
Для проверки надежности измерительного инструмента, говорящего о его однородности (гомогенности) используют метод расщепления. Задания делят на четные и нечетные (необходимо выполнение всех заданий), а затем результаты коррелируются между собой. Если методика однородна, то большой разницы в успешности по этим половинам не будет, коэффициент будет высоким. Можно сравнивать по частям, но лучше по четным и нечетным, т.к. этот способ не зависит от тренировки, утомления и т.д.
Методика надежна, если коэффициент не ниже 0,75 – 0,85, лучше 0,90 и выше.
Определение стабильности изучаемого признака. Также необходимо установить насколько устойчив, стабилен признак, который исследователь намерен измерять. Признак со временем может меняться, но колебания его не должны иметь непредсказуемый характер.
Для проверки используется прием, который называется тест-ретест. Он заключается в повторном обследовании испытуемых с помощью этой же методики. О стабильности судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или не сохранении каждым испытуемым своего порядкового номера в выборке.
На степень устойчивости влияет разнообразие фактора. Необходимо соблюдать единообразие процедуры обследования.
При определении стабильности признака большое значение имеет промежуток времени между 1 и 2 обследованиями. Чем короче этот промежуток, тем больше шансов, что этот признак сохраняет уровень первого испытания. Целесообразно проводить повторное тестирование через короткий срок после тестирования. Экспериментатор сам устанавливает этот срок, но чаще в психологической литературе указывают на интервал от нескольких месяцев (но не более полугода). Вопрос о стабильности измеряемого свойства решается не всегда единообразно. Решение зависит от сущности диагностируемого признака.
Если измеряемое свойство уже сформировано, то коэффициент должен быть не ниже 0,80.
Определение константности, т.е. относительная независимость результатов от Личности экспериментатора. Так как методика разрабатывается для дальнейшего использования ее другими психодиагностами, необходимо определить в какой мере ее результаты поддаются влиянию личности экспериментатора. Коэффициент константности определяется путем корреляции результатов двух опытов, проводимых на одной и той же выборке, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.
Вопрос о валидности решается после того, как установлена надежность, так как ненадежная методика не может быть валидной.
Валидность теста – понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает (А. Анастази). Валидность по своей сути – это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова её действенность, эффективность, практическая полезность.
По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.
Валидность – соответствие конкретного исследования принятым стандартам (безупречному эксперименту).
Валидность в первом ее понимании имеет отношение к самой методике, т.е. это валидность измерительного инструмента. Такая про-верка называется теоретической валидизацией. Валидность во втором ее понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.
При теоретической валидизации исследователя интересует само свойство, измеряемое методикой.
Так как для определения теоретической валидизации тяжело найти какой-нибудь независимый критерий, лежащий вне методики, и поэтому раньше принимались на веру голословные утверждения о валидности этой методики. Так как теоретическая валидизация направлена на доказательство того, что методика измеряет именно свойство, которое она должна измерить. Для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, по средствам которой эти психологические явления пытаются познать. Она показывает, что замысел автора и результаты методики совпадают.
Не столь сложно осуществить теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с известной, доказанной валидностью. Наличие корреляции между новой и аналогичной старой методиками указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная.
Для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность), а с другой – отсутствие этой связи с методиками, имеющими другое теоретической основание (дискриминантная валидность).
Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами Деятельности. Важно чтобы методика была проработана в теоретическом плане.
Прагматическая валидизация
Проверяется практическая эффективность, значимость, полезность методики, так как методикой можно пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных видах Деятельности.
Для проверки прагматической валидности используется независимый внешний критерий – показатель проявления изучаемого свойства в повседневной жизни. В качестве такого критерия могут выступать успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), производственные достижения (для методик профессиональной направленности), эффективность реальной Деятельности – рисования, моделирования и так далее (для тестов специальных способностей), субъективные оценки (для тестов Личности).
Американские исследователи Тиффин и Маккормик выделили 4-е типа внешнего критерия:
- Критерий исполнения (количество выполняемой работы, успеваемость, время, темп роста квалификации).
- Субъективные критерии (включают различные виды ответов, которые отражают отношение человека к чему-либо, его мнения, взгляды).
- Физиологический критерий (используется при изучении влияния внешней среды, влияющей на организм и психику).
- Критерий случайности (например, когда цель касается проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).
Внешний критерий должен обладать 3 основными требованиями:
- Должен быть релевантным, то есть должна быть уверенность, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряет диагностическая методика. Внешний критерий и диагностическая модель должны находиться во внутреннем смысловом соответствии.
- Должен быть свободным от помех (контаминации). Следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях.
- Должен быть надежен. Постоянство и устойчивость исследуемой функции.
Оценка валидности методики может носить количественный и качественный характер.
Для вычисления количественного показателя (коэффициента валидности) сопоставляются результаты, полученные при применении диагностических методик, с данными тех же лиц, полученные по внешнему критерию. Используются разные виды линейной корреляции (по Спирмену, по Пирсену).
Качественное описание сущности измеряемого свойства. Здесь не используют статистическую обработку.
Существуют несколько видов валидности, обусловленных особенностями диагностической методики, а также временным статусом внешнего критерия:
- Валидность «по содержанию» (используется в тестах достижения): 3 – 4 вопроса из большой темы могут показать истинные знания ученика. Для этого результаты диагностики сравнивают с экспертными оценками учителя.
- Валидность «по одновременности» или текущая валидность – собираются данные, относящиеся к настоящему времени: успеваемость, производительность и т.п. С ними коррелируют результаты успешности по тесту.
- «Предсказывающая» валидность («прогностическая»). Определяется по надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования.
- «Ретроспективная» валидность. Определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики.