Валидной задача считается тогда, когда в соответствии с критерием она чаще всего правильно решается теми испытуемыми, у которых измеряемый признак более выражен, чем у других испытуемых. (Например, в интеллектуальном тесте валидными будут те задачи, которые правильно решают испытуемые с более высоким интеллектом, чем с более низким).
Трудность задачи рассчитывается из соотношения процента правильных ответов на данную задачу с учётом объёма репрезентативной выборки испытуемых. Оптимальными для теста являются задачи, индекс трудности которых равен 50 %.
Коэффициент дискриминативности, или согласованности, отдельной задачи с тестом позволяет оценить, насколько точно задача дифференцирует испытуемых по измеряемому признаку. Он равен коэффициенту корреляции между средним результатом анализируемой задачи (по принципу: правильный – неправильный ответ) и средним первичным результатом по всем задачам теста.
Психологический диагноз предполагает использование и анализ результатов исследования, полученных с помощью различных методик. Причём все данные должны быть представлены в единой шкале, то есть все первичные результаты тестовых исследований необходимо преобразовать таким образом, чтобы они оказались сопоставимыми – стандартизация шкал теста.
Под надёжностью теста понимается степень точности, с которой тест измеряет определённое свойство или способ поведения личности. Надёжность теста – это характеристика точности его как измерительного инструмента, его устойчивости к действию помех (как внешних, так и внутренних). Эмпирическое определение надёжности теста является обязательным условием его допуска для использования в практической деятельности психолога.
В психометрике обоснование получили три метода оценки надёжности тестов:
1) метод повторного тестирования (метод тест-ретест);
2) метод тестирования параллельной, или эквивалентной, формой теста;
3) метод деления, или расщепления теста на части. Оценка надёжности по методу повторного тестирования требует, чтобы тест дважды предъявлялся одной и той же выборке испытуемых через какое-то время. Длительность временного промежутка определяется содержанием и характером задач теста.
Второй метод оценки надёжности теста требует наличия параллельной, то есть эквивалентной, формы теста, например формы «А» и «Б». Репрезентативную выборку испытуемых, на которой проверяется надёжность теста, случайным образом делят на две примерно равночисленные группы. Затем первой группе предъявляются задачи формы «А», а второй группе – задачи формы «Б». Через некоторое время (не более одной недели) задачи формы «Б» решает первая группа, а формы «А» – вторая. После этого для всей репрезентативной выборки испытуемых отдельно вычисляются первичные результаты для форм «А» и «Б», которые затем подвергаются корреляции.
Общим недостатком первых двух методов оценки надёжности теста является то, что они зачастую дают заниженные или завышенные коэффициенты надёжности. Дело в том, что дисперсия результатов, на основе которой рассчитывается коэффициент корреляции, неоднородна по своему составу. Наряду с дисперсией действительных индивидуальных различий в неё входят частные дисперсии, обусловленные влиянием как внутренних, психологических, причин (колебания внимания, усталость и др.), так и внешних (уличный шум, поведение и высказывания исследователя и т. п.). При этом сила и сочетание этих причин в первом и во втором тестировании могут быть различными, и оценить их влияние или полностью их нейтрализовать оказывается невозможным.
Поэтому, особенно при проверке надёжности тестов мощности (например, интеллектуальных тестов) и достижений, предпочтение следует отдавать третьему методу, поскольку он предполагает лишь однократное тестирование. Третий метод оценки надёжности включает два различных приёма расчёта: разделение тестовых задач на две части, например по принципу "чётные и нечётные", и расчёт коэффициента консистентности задач теста.
Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивости) получаемых результатов относительно измеряемых свойств объектов, то есть относительно предмета измерения. Отличие понятия «валидности» от «надёжности» измерения удобно раскрывать с помощью различения «объекта» и «предмета» измерения.
Надёжность – это устойчивость процедуры относительно объектов. Надёжность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определённую процедуру измерения, показывает её надёжность – способность устойчиво различать объекты, но вопрос о валидности остаётся открытым.
Устойчивость теста относительно объектов (испытуемых) является необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов. Надёжность является необходимым, но не достаточным условием валидности. Отсюда понятно основное соотношение психометрики: валидность < надёжность.>
Это означает, что валидность теста не может превышать надёжности теста.
Данное соотношение, однако, неверно трактовать как указание на прямо пропорциональную связь валидности и надёжности. Повышение надёжности отнюдь не обязательно приводит к повышению валидности. В терминах Анны Анастази [11] валидность определяется репрезентативностью теста относительно измеряемой области поведения.
При проверке устойчивости распределения общая логика основывается на индуктивном рассуждении: если «половинное» (полученное по половине выборки) распределение хорошо моделирует конфигурацию целого распределения, то можно предположить, что это целое распределение будет также хорошо моделировать распределение генеральной совокупности.
Таким образом, доказательство устойчивости распределения означает доказательство репрезентативности тестовых норм.
Репрезентативность критериальных тестов. В тестах по критерию в качестве реального эталона применяется критерий, ради которого создаётся тест – целевой критерий. Особое значение такой подход имеет в тех областях практики, где высокие результаты могут дать узкоспециализированные диагностические методики, нацеленные на очень конкретные и узкие критерии. Такая ситуация имеет место в обучении: тестирование, направленное на получение информации об уровне усвоения определённых знаний, умений и навыков (при профессиональном обучении), должно точно отражать уровень освоения этих навыков и тем самым давать надёжный прогноз эффективности конкретной профессиональной деятельности, требующей применения этих навыков.
Процентильная шкала. Когда в качестве единственного эталона измерения психодиагностами рассматривается сам тест, то в качестве меры измеряемого свойства выступает местоположение балла на кривой распределения. Применяется Процентильная шкала. В качестве универсальной меры, пригодной для разных (по своей качественной направленности и количеству пунктов) тестов, используется "Процентильная мера". Процентиль – процент испытуемых из выборки стандартизации, которые получили равный или более низкий балл, чем балл данного испытуемого.
Таким образом, в качестве источника данной меры выступает нормативная выборка (выборка стандартизации), на которой построено нормативное распределение тестовых баллов. Процентильные шкалы лежат в основе всех традиционных шкал, применяемых в тестологии (Точки MMPI, стены 16 PF и др.)
Стандартизация шкалы. В психометрике следует различать две формы стандартизации. Под стандартизацией теста понимают, прежде всего, стандартизацию самой процедуры проведения, инструкций, бланков, способа регистрации, условий и т. п. Без стандартизации теста невозможно получить нормативного распределения тестовых баллов и, следовательно, тестовых норм.
Под стандартизацией шкалы понимают линейное преобразование масштаба нормальной (или искусственно нормализованной) шкалы.
Применение стандартных шкал позволяет прибегать на практике к более грубым, приближённым способам проверки типа распределения тестовых баллов.