logo
Дружинин В

3.1. Психометрические замечания

Психологической диагностике способностей как одной из самых популярных последние 10 лет в нашей стране области психологии посвящено множество монографий, практических руководств, методичек и т.п., см. например [1].

Их тиражи избавляют от необходимости перес­ка­зы­вать соответствующее содержание. Тем более, что ос­нов­ное "смысловое ядро" без изменения переходит из книги в книгу. Интересующиеся проблемами психометрии и психодиагностики способностей могут обратиться к соответствующей литературе. Оставим за пределами изложения проблемы валидности, надежности и досто­верности тестов интеллекта, проблему применимости тех или иных диагностических процедур при решении науч­ных и практических задач, детальную информацию о много­численных тестах и тестовых батареях, созданных в нашей стране или за рубежом.

Я остановлюсь только на основных, наиболее распространенных в нашей стране тестах общего интеллекта и структуры интеллекта, по возможности опираясь на опыт применения этих тестов в лаборатории психологии способностей Института психологии РАН. По причине редкого применения в нашей стране и отсутствия квалифицированной ревалидизации, ряд тестов, в частности Стенфорд - Бине, в книге рассматриваться не будут.

Несмотря на вышесказанное, для удобства изложения нужно привести некоторые общие соображения, касающиеся диагностики интеллекта и конструирования тестов интеллекта.

Разработка любого психодиагностического теста сос­тоит из трех этапов: 1) анализ диагностической проблемы, 2) собственно конструирование теста, 3) отбор пригодных заданий.

На первом этапе автор формулирует для себя задачу: что диагностировать, а именно, - какое психическое свой­ство он собирается измерять.

Ответ на этот вопрос содержится в многочисленных концепциях интеллекта. Автор либо берет на вооружение одну из существующих, либо, ежели существующие кон­цепции в чем-то его не устраивают, создает свою. Другой вопрос: как измерять? Производится теоретический анализ достоинств и недостатков существующих методов, и ежели методы, созданные до сих пор, не удовлетворяют автора по некоторым теоретическим или практическим соображениям, он берется за создание собственной ме­то­дики.

Ответ на вопрос "для чего?" и сама его постановка от автора не зависит, а определяется той научно - прак­тической задачей, которую он может модифицировать, но не в силах игнорировать.

На втором этапе происходит собственно работа по соз­данию теста. Главным инструментом здесь служит авторская интуиция, опыт предшественников и знание специфики некоторой интеллектуальной деятельности. Для диагностики соответствующих ей способностей и предназначен тест.

Психолог обычно исходит из интуитивного пред­ставления об изоморфизме внутреннего (ментального) и внешнего (моторно - перцептивного) планов действия и аналогией между внешним и внутренним действием.

Любая психологическая методика на диагностику ин­тел­лекта или парциальных способностей есть задача (игровая, учебная или трудовая), как некоторая модель ситуации, встречающейся в обычной человеческой жизни.

Внешняя валидность теста (ее еще можно назвать "экологическая валидность" - это соответствие тестовой задачи той реальной жизненной задаче, которая служила прототипом теста.

Что касается внутренней валидности, которая, как известно, заключается в соответствии процедуры изме­ре­ния измеряемому свойству, то она достигается ин­ту­ицией исследователя, который предположил, что именно решение данной задачи определяется уровнем развития у человека определенного психического свойства.

Чтобы "измерить" это свойство, мы можем лишь вооружить человека средствами ("внешними" и "внутренними", проводя обучение или инструктируя). Можно воздвигать на пути правильного решения препятствия, затрудняя первичный анализ материала и условий задачи, повышая уровень трудности, вводя дополнительные помехи ("внешние" и "внутренние"), изменяя "обратную связь" и так далее.

Опять-таки, все затруднения мы вводим лишь на основе глубинной аналогии между "внешними" и "внутренними" планами поведения.

Если пользоваться формализованным языком, то единственное, чем варьирует экспериментатор - это трудность задания, а у испытуемого есть лишь одно средство ее преодолеть - проявить свои способности. Независимость объективного уровня трудности задания от способностей испытуемого являлась основной предпо­сылкой при создании в 1952 году датским математиком Г.Рашем [2,3] модели теста, на основе которой было создано семейство вероятностных моделей Раша.

Модель имеет две основные версии: мультипли­кативную и аддитивную.

В соответствии с этой моделью, правильность решения теста определяется либо высоким уровнем способности, либо низким уровнем трудности задания.

В специальной литературе приведены компьютерные алгоритмы и программы, позволяющие на основе эмпирических результатов рассчитать как объективную трудность задания, так и "способность" каждого испытуемого [2,3].

Сам Г.Раш использовал свою модель при создании критериальных тестов и ввел единицу измерения, называемую логит, которая измеряет в одной шкале как трудность задания, так и способность испытуемого.

В.С.Аванесов [4] предложил использовать несколько модификаций модели Г.Раша: модель, учитывающую вероятность угадывания правильного ответа и более сложную модель, учитывающую влияние на успешность решения теста других способностей.

Как бы там ни было, но интуитивно психологи при создании тестов всегда строили задания таким образом, чтобы они варьировались по трудности и были направлены на измерение не более чем одной способности.

Третий этап конструирования теста является этапом отбраковки непригодных заданий, а не творческим процессом их создания.

Но именно с этим этапом связано традиционное мнение о конструировании теста и весь существующий на настоящее время аппарат эмпирико-статистической теории теста, предназначенный для оценки валидности и надежности теста и отдельных его заданий.

Процедура валидизации и проверки на надежность, гомогенность (однородность), дифференцирующую силу, прогностичность и т.д. сводится к отбраковке заданий теста и представляет собой итерационную процедуру доведения теста до потребного уровня качества за счет замены заданий, их модификации, а также изменения процедуры проведения и интерпретации данных тестирования.

Все существующие тесты интеллекта можно условно разделть на две группы: 1) тесты "скорости" и 2) тесты "уровня". Если при проведении первых вводится жесткий лимит времени, то при проведении вторых, хотя есть ограничение времени выполнения теста или субтеста, но главная нагрузка на испытуемого - возрастание трудности заданий. Встречаются варианты тестов, где используются оба вида затруднений.

Тесты "скорости" представляют собой несколько однотипных и близких по уровню сложности заданий. Испытуемый должен решить их за определенное время. Показателем успешности в тестах служит число правильно решенных заданий. Уровень сложности их должен быть близок 0,5, то есть задание решает правильно половина людей выборки, на которой апробируется тест.

В тестах "уровня", как уже было отмечено, время, которое дается испытуемому, значительно превышает время, необходимое среднему испытуемому для решения теста. Создатель теста полагает, что испытуемый, не справивщийся с заданием за определенное время, не решит его никогда.

В качестве "измерительной линейки интеллекта" в тестах "уровня" используется уровень сложности тестового задания.

Главное затруднение вызывает оценка сложности задания. Согласно модели Раша, сложность оценивается экспериментально, следовательно, имеет статистический характер. Кроме того, возникает необходимость оценить: 1) минимально необходимое число заданий для каждого уровня сложности, 2) необходимое число уровней сложности, 3) достоверность различий оценок сложности заданий, принадлежащих разным уровням.

Эти проблемы решены в работе Ф.М.Юсупова [5], который предложил вероятностную модель прогнозирова­ния параметров теста "уровня". Расчеты показывают, что в тестовом задании целесообразно брать от 6 до 10 вари­антов ответа, чтобы минимизировать вероятность случайного решения.

Число заданий в тесте уровня не должно быть слишком велико, чтобы значения показателей сложности соседних по уровню сложности заданий надежно различались. Кроме того, нужно учесть случайность выбора правиль­ного ответа.

При 6 вариантах ответа в каждом тестовом задании количество заданий не может быть более 6 - 7.

Таблица 3. Расчетные значения показателей сложности тестовых заданий

N задания

1

2

3

4

5

6

7

Показа­тель слож­ности

0,035

0,146

0,309

0,5

0,69

0,834

0,97

Модель, предложенная Ф.М.Юсуповым, позволяет спрогнозировать минимальный объем выборки, которой можно апробировать тест: 5-6 человек.

Соответствующая модель для расчета параметров теста с эквивалентными заданиями (тест "скорость") предложена в работе В.Н. Дружинина [6].

Эмпирически проверка теста интеллекта на валид­ность и надежность - процедура стандартная и хорошо отра­жена в соответствующих методических руководствах [1].

Главное, что следует заметить: все разработанные тесты рассматривают интеллект как некоторую непре­рыв­ную величину, по аналогии с ростом или весом, которой люди характеризуются в разной степени.

Полагается, что как большинство биологических и социальных параметров, интеллект характеризуется нормальным распределением людей вдоль оси континуума.

Рис. 6.

Можно предположить, что существующие тесты интел­лекта, включающие в себя задания разной сложности, захватывают разные участки этого континуума. Парадок­сально, что это не отражается на характеристиках распределения людей по результатам тестирования! Возможно, к этому приводит искусственный подбор заданий и процедура нормализации шкалы.

Число баллов в каждом тесте интеллекта имеет верхнюю и нижнюю границы, а не простирается в беско­нечность, следовательно, уместно говорить лишь о квази­нормальности любого распределения людей по отношению к шкале тестового балла.

При подсчете баллов во всех тестах используется кумулятивная аддитивная модель: суммируются баллы, набранные за выполнение каждого отдельного задания, несмотря на их содержательную разнородность.

На первый взгляд, пользоваться гипотезой о прямой зависимости вероятности решения задачи от уровня способности, с определенными оговорками, можно лишь для тестов с эквивалентными заданиями. В тестах "уровня" более целесообразно было бы применять шкалу трудности, измеряя способность самым сложным заданием, которое решил испытуемый. Однако решение зависит от массы случайных факторов, начиная с угадывания, кончая индиви­дуальной интерпретацией тестовой задачи испы­туемым.

На примере теста Равена мой аспирант Ф.М.Юсупов проверил, в какой мере валидны различные модели подсчета тестовых баллов:

1) традиционный, применявшийся в тесте балльный показатель,

2) сумма рангов сложности решенных заданий,

3) количество правильно выполненных заданий (оценка трудности заданий не учитывалась),

4) сумма показателей сложности решенных задач (сложность определялась отношением числа решивших задачу к общему числу испытуемых).

Время работы испытуемых с тестом не ограничи­валось. Результаты исследования показали, что наихудшей дифференцирующей способностью обладает показатель, не учитывающий трудности задания, что естественно, поскольку мы имеем дело с тестом уровня. Наилучшая дифференцирующая способность у модифицированного показателя [5]. Показатель, учитывающий сложность в рангах, и традиционный заняли второе и третье место.

Таблица 4. Коэффициенты вариации и их ошибки для четырех видов показателей тестовой шкалы.

Системы оценки

Коэффициенты вариации

Ошибка коэф­фи­ци­ен­та вариации

Без учета сложности

19,49%

1,4%

Модиф. показатель слож­нос­ти

38,34%

2,76%

Сложность в баллах

24,43%

1,76%

Сложность в рангах

30,53%

2,19%

Рис.7. График зависимости диапазона изменения показателя сложности от числа вариантов ответов в тестовом задании.

Таблица 5. Коэффициенты интеркорреляций для пяти различных показателей шкалы.

Показатели шкалы

1

2

3

4

1. Используемый в тесте Равена

2. Учитывающий сложность в ранговой форме

0,988

3. Не учитывающий сложности тестовых заданий

0,961

0,94

4. Учитывающий сложность в форме весов

0,909

0,981

0,885

5. Используемый в тесте “уровни”

0,715

0,754

0,678

0,79

Таблица 6. Результаты факторного анализа для пяти показателей шкалы.

Показатели шкалы

I

II

h2

1. Используемый в тесте Равена

0,911

0,385

0,978

2. Учитывающий сложность в ранговой форме

0,889

0,454

0,995

3. Не учитывающий сложности тестовых заданий

0,915

0,336

0,95

4. Учитывающий сложность в форме весов

0,805

0,54

0,94

5. Используемый в тесте “уровни”

0,388

0,918

0,993

Процент общей дисперсии

64,9%

32%

96,9%

Для удобства факторизации показателей был введен пятый ранг наиболее сложного выполненного задания.

Факторизация по методу главных компонент с последующим их вращением по методу Г.Кайзера дала два значимых фактора. Наибольший вес по первому фактору имел традиционный показатель продуктивности, исполь­зуемый в тесте Равена, а наименьший показатель, учи­тыва­ющий ранг наиболее сложного решенного задания.

Соответственно, второй фактор имел максимальную нагрузку на последний показатель и минимальную - на традиционный, используемый в тесте Равена.

Поскольку первый фактор объяснял 64,9% дисперсии, а второй только 32%, можно было сделать совершенно очевидный вывод, что успешность выполнения теста Равена, несмотря на то, что он является типичным тестом "уровня", определяется скоростным фактором интеллекта в большей мере, чем фактором, обусловливающим решение сложных заданий. Естественно, результаты факторизации показали, что это разные факторы, и, следовательно, тесты "скорости" измеряют иной "интеллект", чем тесты "уровня". Этот результат тем более интересен, что тест Равена мы использовали без ограничения времени решения (не как тест "скорости", а как тест "уровня").

Второй фактор интерпретируется как предельная возможность испытуемого при выполнении теста, что в большей мере соответствует интуитивному пониманию способности.

Однако тестовая шкала, по которой способность будет определяться решением лишь одного тестового задания, будет очень подвержена действию случайных факторов. Данные шкалограммного анализа показали, что испы­туемые, решившие сложные задания часто не справляются с простым.

Коэффициент корреляции реальной шкалограммы с идеальной равен 0,82 (желательная величина - 0,9).

Тем самым, наиболее приемлем комплексный показа­тель, учитывающий как число заданий, так и их эмпири­чески установленную сложность.

Первый же фактор следует назвать фактором скоростной продуктивности, что соответствует пониманию интеллекта Г.Айзенком.

Попытку разрешить дилемму "сложности" и "скорос­ти" предпринял в 1984 году Л.Т.Ямпольский [8].

В начале исследования он поставил несколько иную проблему, а именно соотношения числа решенных задач и времени решения.

Он предположил, что время решения заданий теста, а также число решенных заданий зависят от сложности заданий.

Л.Т.Ямпольский разработал тест для анализа логико - комбинаторного мышления на определение степени род­ства. Тест состоял из двух субтестов, задания субтестов отличались.

В начале тестирования проводилась разминка на обобщение родственных отношений ("мать-сын", "дядя-племянник"), а затем основная серия. Причем при прове­дении первого субтеста (5 минут) через каждые 30 минут фиксировалось число решенных задач, а при проведении второго субтеста время решения каждого умозаключения.

Л.Т.Ямпольский провел факторизацию 15-ти линейно - независимых параметров, характеризующих продук­тив­ность испытуемого при выполнении теста.

В результате факторизации ему удалось выявить: 1)фак­тор времени решения, 2) фактор правильности решения простых задач, 3) фактор правильности решения сложных задач.

Корреляция факторов показала, что факторы не являются линейно - независимыми, а связаны друг с другом.

Л.Т.Ямпольский предложил модель интеллекта вида:

Ii = Fi * F1

Ii - успешность решения задачи i-го уровня трудности,

Fi - правильность решения задач i - той трудности,

F1 - идеомоторная скорость.

Главный результат этого исследования в том, что выявился не один фактор "сложности", а два - по числу уровней сложности тестовых задач.

Подведем предварительный итог.

Выявлено наличие, по крайней мере, двух факторов, определяющих успешность выполнения теста, независимо от содержания теста: фактор "скоростного интеллекта" и фактор "когнитивной сложности" (или предельных когни­тивных возможностей). Причем последний, возможно, делится на ряд подфакторов, соответствующих опреде­ленным объективно существующим уровням сложности задач.

Таким образом, метрологическая ценность системы существующих тестов под большим вопросом.

Выскажем одно предположение. Можно, на мой взгляд, идентифицировать фактор "скоростного интел­лекта" с "G"-фактором Спирмена и "текучим" интеллектом Кэттелла. Фактор же "предельных возможностей", опре­деляемый когнитивной сложностью наиболее труд­ного решенного задания, возможно, идентичен фактору "крис­таллизованного " интеллекта по Г.Кэттелу. Уровень его развития, возможно, определяется когнитивным опытом, который получает ипытуемый в течении жизни.

Перейдем к рассмотрению наиболее распростра­нен­ных тестов интеллекта. Начнем с уже упоминавшегося выше теста Равена.