Skip to main content
Published Online:https://doi.org/10.1026/0012-1924.55.4.255

Abstract

Zusammenfassung. Mit der vorliegenden Studie soll anhand eines Vergleichs zwischen HAWIK-III und HAWIK-IV, beides Versionen des Wechsler-Intelligenztests für Kinder und Jugendliche zwischen 6 und 16 Jahren, dem Testanwender eine Hilfestellung gegeben werden, wie mit den Modifikationen zwischen beiden Testversionen umgegangen werden kann. Dafür wurden 223 Kinder und Jugendliche mit beiden Testversionen untersucht. Es zeigen sich sehr hohe Korrelationen zwischen beiden Gesamt-IQ. Auf Indexebene ergaben sich höhere Korrelationen in den Indizes, die nur geringe Unterschiede zwischen HAWIK-III und HAWIK-IV aufweisen. Dagegen zeigten diejenigen Indizes niedrigere Zusammenhänge, bei denen einschneidende Veränderungen durch eine neue Untertestzusammensetzung vorgenommen wurden. Um dem Testanwender eine Richtlinie vorzugeben, welche HAWIK-IV-Werte zu erwarten sind, wenn die HAWIK-III-Ergebnisse vorliegen, wurden die erwarteten Werte und ihre Konfidenzintervalle berechnet und für ausgewählte IQ-Werte dargestellt. Die Ergebnisse der vorliegenden Studie sprechen dafür, im Regelfall den HAWIK-IV dem Vorgängerverfahren vorzuziehen. In der Verlaufsdiagnostik kann der HAWIK-III weiterhin Anwendung finden, sofern er in der Eingangsdiagnostik eingesetzt wurde.

A comparison of the German WISC-III and WISC-IV for practitioners

Abstract. This study deals with the comparison of the German WISC-IV and its predecessor, the German WISC-III, both of which are intelligence tests for children aged between 6 and 16 years. Both test versions were administered to 223 children. Substantive correlations were found for Full Scale IQ as well as Composite and Scaled Scores. The highest correlation was found between the scales in which the least changes were made in the new test version, whereas scales with more differences in the subtest structure showed lower correlations. Ranges of expected WISC-IV composite scores were calculated for selected WISC-III IQ scores to give a guideline which WISC-IV score can be expected if the WISC-III score is available. The authors recommend using the recent version of the HAWIK as a general rule. Only if the HAWIK-III was applied before an intervention or training is it advisable to administer the HAWIK-III again in order to examine the effects of the intervention or training.

Die Intelligenzdiagnostik bildet den Schwerpunkt einer psychologischen Leistungsdiagnostik, die über die Darstellung eines normbasierten und ressourcenorientierten Leistungsprofils die Diagnose der kognitiven Leistungsfähigkeit einer Person ermöglicht (Daseking, Janke & Petermann, 2006; Petermann & Köller, 2008). Mit dem HAWIK-IV (Petermann & Petermann, 2008b) steht seit einiger Zeit eine aktualisierte und grundlegend überarbeitete Version der Wechsler-Skalen für Kinder und Jugendliche zwischen 6 und 16 Jahren bereit, die damit die Vorgängerversion, den HAWIK-III (Tewes, Rossmann & Schallberger, 2002), ablöst.

Einen wichtigen Aspekt für die Praxis stellt die Vergleichbarkeit verschiedener Testergebnisse dar. Testanwender sollten von einer Vergleichbarkeit des neuen Testverfahrens mit der vorherigen Version ausgehen können, wenn beispielsweise mit Hilfe des Testverfahrens für eine Verlaufsdiagnostik die Entwicklung eines Patienten anhand der alten Version (hier HAWIK-III) vor Beginn der Maßnahme und der neuen Version (hier HAWIK-IV) nach Beendigung der Maßnahme abgebildet werden soll. Abweichungen im Intelligenzniveau der Menschen über die vergangenen Jahre (Flynn-Effekt, Flynn, 1999, 2007) führen jedoch zu einer deutlichen Verschiebung in der zugrundeliegenden Vergleichspopulation, die eine ausreichende Übereinstimmung möglicherweise gefährden. Zudem stellt die WISC-IV und damit ebenso der HAWIK-IV eine deutliche Neuorientierung der Wechsler-Skalen dar, bei denen unter anderem auf die bisher übliche Einteilung in Verbal- und Handlungsteil verzichtet wurde (Petermann & Petermann, 2008a). Während der HAWIK-III nach dem ursprünglichen Wechsler-Konzept entwickelt wurde, orientiert sich der HAWIK-IV an der aktuellen Cattell-Horn-Carroll-Theorie (CHC-Modell, Daseking, Petermann & Petermann, 2007; McGrew, 2005). Dies beinhaltet deutliche strukturelle Veränderungen auf Untertest- und Indexebene. Zudem wurden in der WISC-IV inhaltliche Veränderungen vorgenommen. So wurden Bewertungskriterien überarbeitet, Durchführungsanweisungen modifiziert, eine größere Anzahl an Lern- und Übungsaufgaben eingefügt und der Zeitdruck reduziert. Insofern befasst sich die vorliegende Studie mit der Vergleichbarkeit als Aspekt der Validität und weniger der Reliabilität (der Frage etwa, in welchem Maße Differenzen zwischen den Tests einem Messfehler zuzurechnen sind). Auch wenn die psychometrische Äquivalenz hier nicht primärer Gegenstand ist, werden auch Ergebnisse einer gemeinsamen Faktorenanalyse berichtet.

Zur Prüfung, ob diese konzeptuellen Veränderungen die Vergleichbarkeit von HAWIK-III und HAWIK-IV beeinträchtigen, wurde im Rahmen der Validierung des HAWIK-IV eine Korrelationsstudie zwischen ihm und seinem Vorgänger durchgeführt (Lipsius, 2009). Für die amerikanischen Versionen WISC-III und WISC-IV wurde eine entsprechende Korrelationsstudie bereits im Technical and Interpretive Manual zur WISC-IV (Wechsler, 2003) publiziert.

Korrelationsstudien zwischen Wechsler-Versionen oder Wechsler-Tests und anderen Intelligenztestverfahren geben Hinweise auf die zu erwartende Höhe der Korrelationen zwischen den Ergebnissen der beiden hier gegenständlichen Testversionen HAWIK-III und -IV (siehe u.a. Tewes, Rossmann & Schallberger, 2002; Wechsler, 1991, 2003). Innerhalb der Wechsler-Versionen ergaben sich auf Index- und Gesamt-IQ-Ebene Korrelationen zwischen r = .61 und .92. Der Untertestvergleich wies Korrelationen zwischen r = .42 und .88 auf. Demnach können für den Vergleich zwischen den Ergebnissen des HAWIK-III und -IV ähnlich hohe Korrelationen erwartet werden.

Die Reliabilitäten erweisen sich auf Ebene der Index-Werte und des Gesamt-IQ als nahezu identisch. Auf Ebene der Untertests sind teilweise größere Abweichungen zu verzeichnen (siehe Testmanuale). Als Untertest mit der höchsten Differenz zwischen der Reliabilität im HAWIK-III und HAWIK-IV stellt sich das Bilder ergänzen dar, gefolgt vom Gemeinsamkeiten finden.

Methoden

Stichprobe

Den Analysen liegen Daten von 223 Kindern zugrunde. Der zeitliche Abstand zwischen beiden Testungen lag bei 128 Kindern und Jugendlichen durchschnittlich bei 39 Tagen (SD = 16 Tage, Minimum 5, Maximum 104 Tage), bei 95 Kindern und Jugendlichen lagen durchschnittlich 8 Monate und 18 Tage (SD = 5 Monate und 12 Tage, Minimum 4, Maximum 24 Monate) zwischen beiden Testungen (zum Studiendesign siehe Abb. 1). Die unterschiedlich großen Re-Testintervalle zwischen der ersten und zweiten Testung stellen demnach eine Kontrolltechnik für den Lerneffekt dar. Der Abstand von einem Monat entspricht dabei dem in Korrelationsstudien üblichen Intervall (siehe u.a. Wechsler, 2003). Für diese Stichprobe wird ein großer Lerneffekt erwartet. Ein Intervall von etwa einem halben Jahr wurde gewählt, da ab diesem Zeitpunkt von einem eher geringen Lerneffekt ausgegangen werden kann (siehe u.a. McCaffrey, Duff & Westervelt, 2000). Sowohl für das kurze als auch für das lange Intervall konnte eine annähernde Gleichverteilung hinsichtlich des Geschlechts (46% männlich und 54% weiblich im kurzen sowie 52% männlich und 48% weiblich im langen Intervall) erreicht werden. Jeweils etwa 34% der Kinder besuchten zum Testzeitpunkt eine Grundschule bzw. das Gymnasium. Knapp 19 % gingen auf die Realschule, 11,2 % auf eine Gesamtschule und lediglich 1,3% waren zum Testzeitpunkt in der Hauptschule (vgl. zum Studiendesign, Lipsius, 2009).

Abbildung 1. Das Studiendesign.

Statistische Methoden

Um Reihenfolgeeffekte ausschließen zu können, wurden den 223 Kindern HAWIK-III und HAWIK-IV in ausbalancierter Reihenfolge vorgegeben. Bei 111 Kindern wurde zuerst der HAWIK-III durchgeführt, 112 Kinder bearbeiteten zuerst den HAWIK-IV. Auch getrennt nach der Höhe des Re-Testintervalls wurde auf eine ausbalancierte Reihenfolge geachtet. Dabei wurden Mittelwert (M), Standardabweichung (SD) und Korrelationen (r) zwischen HAWIK-III und HAWIK-IV-Werten zunächst getrennt für diese beiden Gruppen berechnet. Aus den beiden Mittelwerten wurde das arithmetische Mittel gebildet, die gemittelten Standardabweichungen entsprechen der Wurzel aus der gepoolten Varianz (berechnet über Formel 10.4, Cohen, 1996), die Korrelationen wurden über eine Fisher-z-Transformation gemittelt. Um die Höhe des Effektes der Testvorgabe anzugeben, wurde zusätzlich die Standarddifferenz angegeben.

Die Korrelationen wurden hinsichtlich der Varianzeinschränkung bei Stichproben auf zweifache Weise korrigiert. Weist eine Validierungsstudie eine eingeschränkte Stichprobe auf, die nicht den gesamten Umfang möglicher Leistungsbereiche abdeckt, führt eine Korrektur dazu, dass die Werte eher der Gesamtstichprobe entsprechen. Gemäß Cascio (1991) schätzen korrigierte Koeffizienten den wahren Zusammenhang besser als Koeffizienten ohne Korrektur. Die Korrekturformel, wie sie für den Vergleich zwischen den entsprechenden amerikanischen Versionen WISC-III und WISC-IV verwendet wurde, lautet nach Guilford und Fruchter (1978):

(1)

wobei rc dem Korrelationswert der vorliegenden Validierungsstichprobe mit eingeschränkter Varianz, Sc der SD der vorliegenden und Su der SD der Gesamtstichprobe der HAWIK-IV-Normierung entspricht (Epstein, Mooney, Ryser & Pierce, 2004).

Für den Vergleich HAWIK-R und HAWIK-III wurde die Formel

(2)

verwendet (Lienert & Raatz, 1998).

Im Folgenden werden die Ergebnisse beider Korrekturvarianten angegeben, aufgrund der moderateren Berechnungsweise jedoch nur die nach der amerikanischen Version korrigierten Werte interpretiert. Zudem wurde die Differenz beider Korrelationen je nach Testvorgabe auf Signifikanz überprüft.

Mittels linearer Regressionsanalyse wurden aus den Skalenwerten des HAWIK-III die korrespondierenden Werte des HAWIK-IV vorhergesagt und die entsprechenden 95%-Konfidenz- bzw. Vertrauensintervalle bestimmt. Dabei wird der vorhergesagte Wert unter Ausschluss der Konstante in die Gleichung berechnet. Der vorhergesagte Wert für jeden empirisch ermittelten IQ-Wert des HAWIK-III ergibt sich aus der Multiplikation des HAWIK-III-Wertes mit der Steigung der Regressionsgerade (dem Beta-Gewicht).

Ergebnisse

Es zeigten sich keine signifikanten Unterschiede hinsichtlich der Höhe der Korrelationen zwischen den Stichproben mit langem und kurzem Re-Testintervall (Fisher-z-Test). Daher konnte bei den folgenden Berechnungen auf die Gesamtstichprobe zurückgegriffen werden.

Hinweise auf die Konstruktvalidität gibt eine gemeinsame Faktorenanalyse, welche sämtliche Untertests beider Testversionen berücksichtigt (vgl. dazu Lipsius, 2009). Dabei laden die Untertests der beiden Sprachverständnis-Indizes auf einem Faktor, die Untertests der Indizes Wahrnehmungsorganisation (WO) und Wahrnehmungsgebundenes Logisches Denken (WLD) auf einem zweiten Faktor, die Untertests der Indizes Unablenkbarkeit und Arbeitsgedächtnis auf einem dritten und die Untertests der beiden Geschwindigkeitsindizes auf einem vierten Faktor. Somit kann davon ausgegangen werden, dass sich trotz der unterschiedlichen theoretischen Einbettung beider Testversionen keine interpretatorisch bedeutsamen Unterschiede ergeben.

Stichprobenkennwerte

Aufgrund des Flynn-Effekts ist zu erwarten, dass die Mittelwerte in den Indizes und im Gesamt-IQ des HAWIK-IV durchweg niedriger ausfallen als im HAWIK-III (siehe Tab. 1). Einzig im Vergleich zwischen den Indizes Wahrnehmungsorganisation und Wahrnehmungsgebundenes Logisches Denken zeigen sich gleich hohe Mittelwerte. Einschränkend ist hier festzuhalten, dass beide Gesamt-IQ-Mittelwerte mit 106.3 und 108.9 deutlich oberhalb der Mittelwerte der Normstichprobe liegen. Bei den Untertests liegt der größte Mittelwertunterschied im Untertest Gemeinsamkeiten finden.

Tabelle 1. Korrelationen zwischen HAWIK-III und -IV gesamt

Zusammenhangsmaße

Die Untersuchung der Korrelationen gibt Aufschluss über die Höhe und Richtung des Zusammenhangs der Untertests und Indizes beider Testversionen. Dabei stellt sich die Frage, ob die Korrelationen zwischen den sich entsprechenden Werten ebenso hoch ausfallen, wie es in vergleichbaren Studien der Fall ist.

Tabelle 1 enthält neben den Stichprobenkennwerten auch die unkorrigierten Korrelationskoeffizienten sowie die, bezogen auf die Varianzeinschränkungen der vorliegenden Stichprobe, korrigierten Korrelationskoeffizienten für alle verfügbaren Paarungen (Untertests sowie Indizes); die Ergebnisdarstellung bezieht sich ausschließlich auf die nach der Korrekturformel von Guilford und Fruchter (1978) korrigierten Werte.

Die Gesamtwerte beider Testversionen weisen mit r = .87 (siehe Tab. 1) einen hohen Zusammenhang auf. Der Index Sprachverständnis und der Verbalteil korrelieren ebenso hoch, während der Index Wahrnehmungsgebundenes Logisches Denken mit dem Handlungs-IQ mit r = .68 nach Korrektur einen niedrigeren Zusammenhang aufweist. Auf Indexebene liegen für die beiden Sprachverständnis-Indizes mit r = .88 die höchsten Korrelationen vor. Auch der Vergleich zwischen den beiden Geschwindigkeitsindizes (AG und VG) zeigt mit r = .84 hohe Zusammenhänge. Dahingegen fallen die Korrelationen der Indexvergleiche Wahrnehmungsorganisation und Wahrnehmungsgebundenes Logisches Denken sowie Unablenkbarkeit und Arbeitsgedächtnis mit r = .67 und .72 etwas niedriger aus. Insgesamt kann demnach von hohen Zusammenhängen zwischen den Indizes und Gesamtwerten des HAWIK-III und -IV gesprochen werden. Zudem weisen die Koeffizienten mit Werten zwischen r = .63 (Symbol-Suche und Bilder ergänzen) und r = .81 (Allgemeines Wissen) auch auf Untertestebene durchgängig auf starke Zusammenhänge hin.

Standarddifferenzen können als Effektstärken der Testvorgabe interpretiert werden; je höher der Wert, desto stärker ist der der Einfluss der Testreihenfolge auf Mittelwerte und Standardabweichungen. Bei allen Differenzen dieser Studie sind nur sehr geringe Effekte nachzuweisen, die höchsten Werte werden mit d = –.29 für die Paarungen des Untertests Gemeinsamkeiten finden sowie auf Indexebene mit d = –.34 für die Paarungen der Sprachverständnis-Indizes erreicht (siehe Tab. 1; zur Klassifizierung von Effektstärken siehe Cohen, 1992). Die Reihenfolge der Testvorgabe spielt für die Interpretation von Ergebnissen aus beiden Verfahren also nur eine untergeordnete Rolle.

Einzig bei den beiden Versionen des Untertests Allgemeines Verständnis erweist sich die Höhe der Korrelationen, je nachdem, welcher Test zuerst durchgeführt wurde, als signifikant voneinander different.

Regressionsanalysen

Um die Frage beantworten zu können, welche Werte bei einer Testung mit dem HAWIK-IV zu erwarten sind, wenn bereits ein Befund aus einer Untersuchung mit dem HAWIK-III vorliegt, werden im Folgenden die Ergebnisse der Regressionsanalysen vorgestellt (siehe Tab. 2).

Tabelle 2. Erwartete Wertebereiche des Gesamt-IQ und der Indizes des HAWIK-IV für ausgewählte IQ-Werte des HAWIK-III

Aufgrund der Normverschiebung im Sinne des Flynn-Effekts liegen die erwarteten Werte des HAWIK-IV durchweg etwas unterhalb der Werte des HAWIK-III. Bei einem Beta-Gewicht von .971 ergibt sich für die Berechnung der zu erwartenden Werte im Gesamt-IQ folgende Gleichung: Gesamt-IQ des HAWIK-IV = 0 + .971 * Gesamt-IQ des HAWIK-III. Die Beta-Gewichte (Steigung) für die Gesamt-IQ, die Indexpaarungen sowie die Vorhersage des Index Sprachverständnis des HAWIK-IV durch den Verbalteil des HAWIK-III und des Index Wahrnehmungsgebundenes Logisches Denken durch den Handlungsteil des HAWIK-III können Tabelle 3 entnommen werden.

Tabelle 3. Ergebnisse der Regessionsanalysen zur Vorhersage von HAWIK-IV-IQ-Werten aus dem HAWIK-III

Für einen Gesamt-IQ von 100 im HAWIK-III ergibt sich daraus gerundet ein vorhergesagter HAWIK-IV-Gesamt-IQ von 97. Wurde also der HAWIK-III durchgeführt und beispielweise ein Gesamt-IQ von 100 erreicht, liegt das 95%-Konfidenzintervall zwischen 96 und 99. Bei einem IQ von 115 im Sprachverständnis des HAWIK-III zeigt diese Studie ein 95%-Konfidenzintervall von 109 bis 111 im Sprachverständnis des HAWIK-IV. Bei den Konfidenzintervallen handelt es sich um die sogenannten Konfidenzintervalle der Erwartung (siehe auch Daseking, Petermann & Waldmann, 2009). Hierbei wird der Erwartungswert einer neuen, unabhängigen Beobachtung aufgrund ihres Prädiktorwertes vorhergesagt. Dabei ergibt sich ein schmaleres Band um die Regressionsgerade als beim Konfidenzintervall der individuellen Vorhersage, da verschiedene Ausprägungen des Prädiktors auf denselben Kriteriumswert (Mittelwert) projiziert werden und die stochastische Variation des Individuums entfällt. Dieser Erwartungswert stellt im Regressionsmodell eine Konstante dar, die geschätzt und nicht vorhergesagt wird, die geordnete Serie dieser Werte ergibt die Regressionsgerade. Das Konfidenzintervall der Erwartung gibt demnach den Bereich an, in welchen der Mittelwert aller Kriteriumswerte für einen bestimmten Prädiktorwert mit 95% Wahrscheinlichkeit fallen wird. So beträgt das Konfidenzintervall der Erwartung (95%) für den Gesamt-IQ zwischen ±2 und ±5 IQ-Punkte.

Diskussion

Aus den Korrelationen von HAWIK-III und HAWIK-IV resultiert:

  • die Testreihenfolge und die Höhe des Re-Testintervalls haben keinen Einfluss auf die Höhe der Korrelationen der Indizes und Gesamtwerte,
  • die beiden Gesamt-IQ korrelieren in den zusammengefassten Korrelationsanalysen (Mittelung der Korrelationen bei HAWIK-III als erstem bzw. HAWIK-IV als erstem Test) durchweg mit r > .80,
  • der Verbalteil des HAWIK-III korreliert höher mit dem Sprachverständnis des HAWIK-IV als der Handlungsteil des HAWIK-III mit dem Wahrnehmungsgebundenen Logischen Denken des HAWIK-IV und
  • die Indexpaare Sprachverständnis und Be- bzw. Verarbeitungsgeschwindigkeit korrelieren höher als die Indexpaarungen Wahrnehmungsorganisation und Wahrnehmungsgebundenes Logisches Denken sowie Unablenkbarkeit und Arbeitsgedächtnis.

Bei der Untersuchung des Zusammenhangs beider Testversionen zeigen sich sehr hohe Korrelationen zwischen den Gesamt-IQ. Dies lässt den Schluss zu, dass beide Testversionen das gleiche Konstrukt (die allgemeine Intelligenz im Sinne eines g-Faktors) erfassen und demnach miteinander verglichen werden können. Auch der Vergleich der Indizes, innerhalb derer geringe oder keine inhaltlichen Veränderungen vorgenommen wurden, scheint dank hoher Korrelationen zulässig. Die niedrigeren Korrelationen zwischen Wahrnehmungsorganisation und Wahrnehmungsgebundenem Logischen Denken sowie Unablenkbarkeit und Arbeitsgedächtnis bestätigen die Angaben der Testautoren der WISC-IV, dass der Schwerpunkt der von den Indizes erfassten kognitiven Fähigkeiten aufgrund modifizierter Modellvorstellungen von Intelligenz verändert wurde (Wechsler, 2003b). Der Vergleich dieser Indizes kann demnach nicht generell vorgenommen werden. Aufgrund der niedrigeren und uneinheitlichen Korrelationen auf Ebene der Untertests stellt sich ein Vergleich auf Untertestebene als zumindest fragwürdig dar. Untertests weisen allgemein aufgrund der geringeren Informationsmenge, die in den Untertest-Wert einfließt, einen höheren Messfehler und somit niedrigere Reliabilitäten auf. Daraus kann gefolgert werden, dass nur der Gesamt-IQ und die Indizes ein wirklich aussagekräftiges Abbild der kognitiven Leistungen geben. Die Untertestergebnisse sollten demnach nur für die Analyse der Stärken und Schwächen eines Kindes herangezogen werden. Zudem besitzen die Untertests des HAWIK-III und HAWIK-IV teilweise unterschiedliche Reliabilitäten. Dies kann ein Grund dafür sein, weshalb Kinder auch beim Vergleich identischer Untertests unterschiedliche Werte erzielen, die nicht auf einen Lern- oder Flynn-Effekt zurückgeführt werden können. Daraus sollte ebenfalls resultieren, von einem Vergleich auf Untertestebene abzusehen.

Die erwarteten Werte und Konfidenzintervalle sollen dem Testanwender verdeutlichen, von welchen Werten er bei einer Testung mit dem HAWIK-IV ausgehen kann, wenn bereits der HAWIK-III durchgeführt wurde. Liegen die Werte außerhalb der Konfidenzintervalle weist dies auf ein abweichendes Leistungsprofil zur HAWIK-III-Testung hin. Die Veränderungen können jedoch auch durch die spezifischen Stärken und Schwächen des Kindes entstanden sein, die durch die Verschiebung der erfassten Fähigkeiten mehr oder weniger betont werden. Zudem sollten auch Lerneffekte (vor allem im Bereich der Erfassung von Verarbeitungsgeschwindigkeit), Testleitereffekte (Lipsius, Petermann & Daseking, 2008) oder andere Störvariablen (siehe auch Daseking, Lipsius, Petermann & Waldmann, 2008; Gienger, Petermann & Petermann, 2008) berücksichtigt werden.

Schlussfolgerungen für die Praxis

Aufgrund der Interpretationsprobleme und dem Mangel an ausreichender Forschung zum Thema der Vergleichbarkeit zweier Testversionen empfehlen Strauss, Spreen und Hunter (2000) den Testanwendern – je nach Zweck ihrer Untersuchung – eine Kombination von Richtlinien. Im Folgenden werden nur die Richtlinien angegeben, die für die hier gegenständliche Art von Testrevision gültig sind:

  • Konnte eine Normverschiebung (z.B. durch einen großen Flynn-Effekt) nachgewiesen werden, sollte die überarbeitete Version verwendet werden.
  • Sind neue Normen vorhanden, sollten nur diese verwendet werden.
  • Bei Vorher-Nachher-Testungen, die nicht der Erfassung des kognitiven Leistungsstandes im Sinne einer Statusdiagnostik, sondern des Erfolgs einer therapeutischen Maßnahme dienen, sollte immer die gleiche Version verwendet werden.
  • Entscheidungsregeln, die auf unterschiedlichen Testversionen beruhen, sollten vermieden werden.
  • Wenn die Faktorenstrukturen voneinander abweichen, sollte beim Vergleich beider Versionen die Interpretation der Gesamtwerte vermieden werden. Es sollte sich nur auf die Komponenten beschränkt werden, die in beiden Versionen äquivalent erscheinen.
  • Es sollten generell stets mehrere Verfahren zur Messung eines Konstrukts verwendet werden.

Unter Bezugnahme auf diese Kriterien sollte im Hinblick auf den HAWIK im Regelfall immer der HAWIK-IV zum Einsatz kommen. So zeigt sich ein Flynn-Effekt im Vergleich des HAWIK-IV mit seinem Vorgängerverfahren, dem HAWIK-III. Die Verwendung älterer Testversionen kann angesichts des Flynn-Effekts in eine geringere Anzahl an Diagnosen von Entwicklungsbeeinträchtigungen münden, in dem vorhandene Beeinträchtigungen nicht ernst genommen werden (Strauss et al., 2000). Testergebnisse sollten auf normativen Informationen basieren, die sowohl aktuell als auch repräsentativ für die jeweilige Population sind. Es wird davon ausgegangen, dass Normen von Intelligenztests spätestens nach 15 Jahren als ungültig gelten und durch neue Vergleichswerte zu ersetzen sind (Kanaya, Ceci & Scullin, 2005). Die Normen des HAWIK-III wurden zwischen 1995 und 1998 erhoben. Demnach sind die erhobenen HAWIK-III-Werte mittlerweile bis zu 14 Jahre alt.

Außerdem konnte anhand von Faktorenanalysen (siehe u.a. Keith, Fine, Taub, Reynolds & Kranzler, 2006) nachgewiesen werden, dass für die WISC-IV und damit auch den HAWIK-IV erfolgreich Änderungen in der Erfassung kognitiver Fähigkeiten vorgenommen wurden, die als wichtige Konstrukte im Bereich der Intelligenzdiagnostik gelten (siehe auch Petermann & Petermann, 2008a). Einzig im Bereich der Verlaufsdiagnostik, beispielsweise bei Testungen vor und nach einer Therapie, ist es angebracht, erneut auf den HAWIK-III zurückzugreifen, wenn er bereits vor der Maßnahme durchgeführt wurde. Nur so können Veränderungen im Leistungsprofil des Kindes auf tatsächliche Leistungsveränderungen zurückgeführt werden, ohne dass Verzerrungen wie Unterschiede in den Tests oder veraltete Normen berücksichtigt werden müssen. Allerdings müssen in diesem Fall mögliche Lerneffekte unbedingt berücksichtigt werden. Liegt die erste Testung mehrere Jahre zurück, kann zwar ein Lerneffekt ausgeschlossen werden, jedoch kann dann bereits der Flynn-Effekt zum Tragen kommen. In Einzelfällen kann die Vorher-Nachher-Testung mit unterschiedlichen Testversionen Auswirkungen auf Schulformentscheidungen, Diagnosestellungen oder Therapieplanungen haben. Daher sollte bei einer Wiederholungstestung für die Katamnese unbedingt auf das ursprünglich eingesetzte Verfahren zurückgegriffen werden.

Analysen zum Zusammenhang beider Versionen ergaben jedoch hohe Korrelationen. Es zeigten sich zudem gemeinsame Faktorenstrukturen, die den Schluss zulassen, dass der HAWIK-III und -IV trotz inhaltlicher Unterschiede dasselbe Konstrukt erfassen. Unter Berücksichtigung der Erkenntnisse, die aus der vorliegenden Studie gezogen werden können, scheint es demnach zulässig, die Ergebnisse beider Testversionen miteinander zu vergleichen. Als Richtlinie sollten dabei die erwarteten Werte und ihre Konfidenzintervalle herangezogen werden. Sie bieten eine praktische Hilfestellung bei der Einschätzung der Ergebnisse hinsichtlich potentieller Veränderungen der Leistungen eines Kindes nach einer psychologischen, medizinischen Behandlung oder pädagogischen Maßnahme.

Aufgrund der teilweise relativ niedrigen Zusammenhänge zwischen den Indexpaarungen scheint ein Vergleich dieser Indizes zumindest nur eingeschränkt möglich zu sein. Dabei liegen die Veränderungen nicht nur in den unterschiedlichen Untertests, sondern auch in den damit verbundenen unterschiedlichen kognitiven Fähigkeiten, die in den Indizes erfasst werden.

Außerdem scheinen identische Wertpunkte, beispielsweise in den Indizes Wahrnehmungsorganisation und Wahrnehmungsgebundenes Logisches Denken, nicht gleichbedeutend damit zu sein, dass das Kind in beiden Indizes identische Leistungen gezeigt hat oder dass die Tests dasselbe messen. Genauso bedeutet eine IQ-Steigerung von Wahrnehmungsorganisation zu Wahrnehmungsgebundenem Logischem Denken nicht zwangsläufig eine Verbesserung der Leistung des Kindes. Durch die Standardisierung auf ein Mittel von 10 Wert- bzw. 100 IQ-Punkten bedeuten jeweils 10 Wertpunkte bzw. ein IQ von 100 in beiden Testversionen lediglich, dass das Kind verglichen mit Kindern des gleichen Alters ein durchschnittliches kognitives Niveau aufweist.

Literatur

Dr. Maike Lipsius, Zentrum für Klinische Psychologie und Rehabilitation , der Universität Bremen, Grazer Straße 6, 28359 Bremen, E-Mail:
Prof. Dr. Franz Petermann, Zentrum für Klinische Psychologie und Rehabilitation , der Universität Bremen, Grazer Straße 6, 28359 Bremen