Анализ ретестовой надежности тестов невербального интеллекта (на примере теста «Прогрессивные матрицы». Дж. Равена)

Автор работы: Пользователь скрыл имя, 01 Сентября 2014 в 14:38, курсовая работа

Краткое описание

Цель курсовой работы: анализ ретестовой надежности тестов невербального интеллекта (на примере теста «Прогрессивные матрицы». Дж. Равена).
В соответствии с целью и гипотезой определены следующие задачи:
Изучить теоретические аспекты надежности психологических тестов.
Рассмотреть основные методики тестирования невербального интеллекта
Провести эмпирическое исследование ретестовой надежноститестов невербального интеллекта (на примере теста «Прогрессивные матрицы». Дж. Равена).

Содержание

Введение
3
1
Надежность теста как психодиагностическая проблема
5
1.1
Понятие «надежность» теста
5
1.2
Виды надежности теста. Способы определения надежности
12
1.3
Невербальные тесты интеллекта. Общая характеристика
17
2
Практическое исследование ретестовой надежности тестов невербального интеллекта
25
2.1
Схема исследования, участники исследования
25
2.2
Методики исследования
25
2.3
Анализ ретестовой надежности тестов невербального интеллекта
27

Заключение
31

Литература

Вложенные файлы: 1 файл

Анализ ретестовой надежности тестов невербального интеллекта.docx

— 82.86 Кб (Скачать файл)

Трудно четко ответить на вопрос, какой срок можно считать оптимальным для повторного эксперимента. Только исследователь, исходя из психологической сущности методики, условий, в которых она проводится, особенностей выборки испытуемых, должен определить этот срок. При этом такой выбор должен быть научно обоснован. В тестологической литературе наиболее часто называются временные интервалы в несколько месяцев (но не более полугода). При обследовании детей младшего возраста, когда возрастные изменения и развитие происходят очень быстро, эти интервалы могут быть порядка нескольких недель.

Коэффициент стабильности методики должен быть достаточно высоким (не ниже 0,80).

Определение константности(относительной независимости результатов от личности экспериментатора).

Поскольку методика, разработанная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в какой мере ее результаты поддаются влиянию личности экспериментатора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указывающими, как проводить эксперимент, однако регламентировать манеру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опыту всегда отразит то, как сам экспериментатор к этому опыту относится (допускает небрежность или действует точно в соответствии с требованиями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т. п.).

Хотя в тестологической практике критерием константности пользуются нечасто, однако это не может служить основанием для его недооценки. Если у авторов методики возникают подозрения по поводу возможного влияния личности экспериментатора на исход диагностической процедуры, то целесообразно проверить методику по этому критерию. При этом важно иметь в виду следующий момент. Если под воздействием нового экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность методики не окажет влияния. Надежность изменится лишь тогда, когда воздействие экспериментатора на испытуемых различно: одни стали работать лучше, другие хуже, а третьи так же, как и при первом экспериментаторе. Другими словами, если испытуемые при новом экспериментаторе изменили свои порядковые места в выборке.

Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.

Итак, были рассмотрены три показателя надежности психодиагностических методик. Может возникнуть вопрос, нужно ли при создании методик осуществлять проверку каждого из них? На этот вопрос следует дать утвердительный ответ.

Так, авторы «Стандартных требований к педагогическим и психологическим тестам» в главе «Надежность» отмечают, что коэффициент надежности — это родовое понятие, включающее в себя несколько видов, и каждый вид имеет свой особый смысл. Разделяет эту точку зрения и К. М. Гуревич. По его мнению, когда говорят о разных способах определения надежности, то имеют дело не с лучшей или худшей мерой, а с мерами разной по существу надежности. В самом деле, чего стоит методика, если не ясно, надежна ли она сама по себе как измерительный инструмент, или не установлена стабильность измеряемого свойства? Чего стоит диагностическая методика, если неизвестно, могут ли изменяться результаты в зависимости от того, кто ведет эксперимент? Каждый в отдельности показатель никак не заменит других способов проверки и, следовательно, не может рассматриваться в качестве необходимой и достаточной характеристики надежности. Только методика, располагающая полной характеристикой надежности, наиболее пригодна для диагностико-практического применения [7].

 

1.2 Виды надежности  теста. Способы определения надежности

 

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности - надёжность как устойчивость и надёжность как внутреннюю согласованность.

Надёжность как устойчивость.

Устойчивость результатов теста – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток МР – это – эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

Надёжность как внутренняя согласованность

Внутренняя согласованность определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в Противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест.

Для проверки внутренней согласованности применяются:

Метод расщепления или метод автономных частей Метод эквивалентных бланков Альфа Кронбаха

Методрасщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине)

Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Ретестовая надёжность–характеристика надежности психодиагностической методики, получаемая путем повторного обследования испытуемых с помощью одного и того же теста. Надежность в этом случае вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте. Коэффициент надежностисоответствует коэффициенту корреляции между результатами таких обследований. При использовании интервальных шкал применяется коэффициент корреляции произведения моментов Пирсона.

Коэффициент корреляции произведения моментов Пирсона (r):

 

где хi1 – тестовый балл i-го испытуемого при первом измерении;

хi2 – тестовый балл того же испытуемого при повторном измерении;

n – количество испытуемых. 

 

Для шкал порядка в качестве меры устойчивости к перетестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.

Коэффициент ранговой корреляции Спирмена (rs):

где di – разность рангов j-гo испытуемого в первом и втором ранговом ряду;

n – количество испытуемых. 

 

Коэффициент ранговой корреляции Кендалла (ф):

где Р – количество совпадений порядком на признаке xj;

Q – количество несовпадений порядка на признаке xj;

N – последовательных рангов.  

 

Кроме того, при расчёте ре-тестовой надёжности может использоваться коэффициент φ:

При условии, что переменная принимает значения 1 и 0.

Тогда Рх, Ру – доля случаев с единицей по признакам X и У;

qx, qy – с нулем по X и У;

q – 1 – Р; Рху – доля случаев с единицей как по X, так и по У.

В таком виде коэффициент rху для номинально дихотомических данных называется коэффициентом ассоциации Пирсона и обозначается φ («фи»).

В случае, если данные представлены в виде частот совпадений событий в четырех возможных вариантах сочетания переменных, коэффициент φ будет иметь вид:

Как отмечает Л.Ф.Бурлачук, при характеристике ретестовой надёжности особое значение имеет временной интервал между первым и вторым обследованиями [3]. С его увеличением показатели корреляции имеют тенденцию к снижению, существенно повышается вероятность воздействия посторонних факторов– могут наступить закономерные возрастные изменения измеряемых тестом свойств, произойти различные события, влияющие на состояние и особенности развития исследуемых качеств. По этой причине при определении ретестовой надёжности стараются выбирать непродолжительные временные интервалы (до нескольких месяцев), а при обследовании детей младшего возраста эти интервал должны быть еще меньше, поскольку возрастные изменения и развитие в этом случае происходят значительно быстрее.

Наряду с очевидной простотой, ретестовая надёжность, как метод определения надежности, обладает существенными недостатками. Taк при повторном применении одних и те же заданий, особенно при относительно непродолжительном временном интервале между обследованиями, у испытуемых может сформироваться навык работы с данной психодиагностической методикой, что приводит к улучшению индивидуальных результатов, хотя и не одинаково выраженных у разных лиц. Это неизбежно ведет к заметной перестановке ранговых мест отдельных испытуемых в данной выборке и, соответственно, ухудшению коэффициента надежности. Еще более заметное воздействие на результаты анализа надежности оказывает запоминание испытуемыми отдельных решений, воспроизведение в повторном обследовании предыдущей картины правильных и неправильных решений. В этом случае результаты двух предъявлений теста не будут независимыми и корреляция между ними окажется завышенной.

 

1.3 Невербальные  тесты интеллекта. Общая характеристика

 

Одним из критериев классификации методик в отечественной психологической диагностике является форма (характер) стимульного материала. По этому критерию выделяютвербальныеиневербальныетесты интеллекта.

Первые состоят из заданий, стимульный материал которых представлен в языковой форме — это слова, высказывания, тексты. Содержанием работы испытуемых является установление логико-функциональных и ассоциативных связей в стимулах, опосредованных языковой формой. Невербальные тесты интеллекта состоят из заданий, в которых стимульный материал представлен либо в наглядной форме (в виде графических изображений, рисунков, чертежей), либо в предметной форме (кубики, части объектов и пр.). В этих тестах знание языка требуется только для понимания инструкций, которые намеренно делаются простыми и по возможности короткими.

Таким образом, вербальные тесты интеллекта дают показателисловесного (понятийного) логического мышления, а с помощью невербальных тестов оцениваетсянаглядно-образноеинаглядно-действенное логическое мышление.

В зарубежной психодиагностике иногда применяется несколько отличная от изложенной классификация методик.Выделяются:

- тесты действия;

- неязыковые;

- невербальные тесты.

Тесты действия(performancetests) требуют операций с предметами при минимальном использовании карандаша и бумаги или выполнения заданий посредством каких-либо движений на бумаге (рисование фигуры, вычерчивание пути выхода из лабиринта и пр.).

Неязыковые тесты(nonlanguagetests) разрабатываются так, что не требуют использования языка ни от испытуемого, ни от диагноста. Стимульный материал этих тестов представлен в невербальной форме, а инструкции к ним осуществляются непосредственным показом или жестами, без использования речи (как устной, так и письменной).

Невербальные тесты(nonverbaltests) в излагаемой классификации правильнее называть, как указываетА. Анастази [1], тестами, не требующими умений читать и писать. Их выполнение опирается на применение устных инструкций и общение с диагностом. В заданиях могут быть использованы как предметы и наглядные изображения, так и вербальное содержание. Например, они могут быть направлены на диагностику понимания значений слов, предложений или коротких абзацев, предъявляемых с помощью изобразительных средств (с одновременными устными указаниями но каждому заданию). Поэтому в отличие от неязыковых тестов невербальные (в понимании некоторых западных психологов) непригодны для лиц, говорящих на другом языке, а также для неслышащих индивидов.

Информация о работе Анализ ретестовой надежности тестов невербального интеллекта (на примере теста «Прогрессивные матрицы». Дж. Равена)