Bestimmung der Güte von Beurteilereinschätzungen mittels der Intraklassenkorrelation und Verbesserung von Beurteilereinschätzungen

M. Wirtz

doi:10.1055/s-2003-814935

Subscribe to RSS

Please copy the URL and add it into your RSS Feed Reader.

https://www.thieme-connect.de/rss/thieme/en/10.1055-s-00000065.xml

Share / Bookmark

Facebook X Linkedin Weibo

Download PDF

Rehabilitation (Stuttg) 2004; 43(6): 384-389
DOI: 10.1055/s-2003-814935

Methoden in der Rehabilitationsforschung

Bestimmung der Güte von Beurteilereinschätzungen mittels der Intraklassenkorrelation und Verbesserung von Beurteilereinschätzungen

Determining the Quality of Rater Judgements Using Intraclass Correlation, and Enhancing Rater JudgementsM. Wirtz¹

¹Methodenzentrum des Rehabilitationswissenschaftlichen Forschungsverbundes Freiburg/Bad Säckingen, Freiburg

Koordinatoren der Reihe „Methoden in der Rehabilitationsforschung”: Prof. Dr. Dr. Hermann Faller, Würzburg; Prof. Dr. Thomas Kohlmann, Greifswald; Dr. Christian Zwingmann, Frankfurt/MainInteressenten, die einen Beitrag zur Reihe beisteuern möchten, werden gebeten, vorab Kontakt aufzunehmen, E-mail: christian.zwingmann@vdr.de

Further Information

Publication History

Publication Date:
24 November 2004 (online)

Also available at

Abstract
Full Text
References

Permissions and Reprints

Zusammenfassung

Einschätzungen durch Ärzte oder Therapeuten zählen zu den wichtigsten Messmethoden in der klinischen Praxis. Es wird gezeigt, wie die Zuverlässigkeit von Beurteilungen mittels Ratingskalen durch statistische Maßzahlen bestimmt werden sollte. Zudem wird verdeutlicht, welche Ursachen mangelnde Zuverlässigkeit von Beurteilungen haben kann. Das Wissen über diese Ursachen kann die Basis für Beurteilertrainings sein, die zur Sicherstellung der Qualität klinischer Einschätzungen genutzt werden können.

Abstract

In clinical practice ratings by physicians and therapists are among the most frequently used assessment procedures. It is shown, which statistical measures should be used to assess the reliability of such ratings. Additionally, potential causes of insufficient reliability are presented. Improvement of rating quality may be achieved by rater training, which is based on an analysis of rating errors.

Schlüsselwörter

Beurteilerreliabilität - Ratingskalen - Intraklassenkorrelation - Beurteilungsfehler - Beurteilertraining

Key words

Rater reliability - rating scales - intraclass correlations - rating mistakes - rater training

Literatur

1 Agresti A. Modelling patterns of agreement and disagreement. Statistical Methods in Medical Research. 1992; 1 201-218

PubMed Google Scholar
2 Bortz J, Döring N. Forschungsmethoden und Evaluation. 3. Aufl. Berlin; Springer 2001

Google Scholar
3 Bortz J, Lienert G A. Kurzgefasste Statistik für die klinische Forschung. Berlin; Springer 2002

Google Scholar
4 Bullinger M, Kirchberger I. SF-36 Fragebogen zum Gesundheitszustand (SF-36). Handbuch für die deutschsprachige Fragebogenversion. Göttingen; Hogrefe 1998

Google Scholar
5 Fleiss J L. Statistical methods for rates and proportions. New York; Wiley 1981

Google Scholar
6 Franke G H. SCL-90-R - Die Symptom-Checkliste von L. R. Derogatis. Göttingen; Beltz-Test 2002

Google Scholar
7 Greve W, Wentura D. Wissenschaftliche Beobachtungen. Eine Einführung. Weinheim; Psychologie-Verlags-Union 1997

Google Scholar
8 Lienert G, Raatz U. Testaufbau und Testanalyse. 5. Aufl. Weinheim; Beltz, PVU 1998

Google Scholar
9 McGraw K O, Wong S P. Forming inferences about some intraclass correlation coefficients. Psychological Methods. 1996; 1 31-43

PubMed Google Scholar
10 Rohrmann B. Empirische Studien zur Entwicklung von Antwortskalen für die sozialwissenschaftliche Forschung. Zeitschrift für Sozialpsychologie. 1978; 9 222-245

PubMed Google Scholar
11 Rost J. Lehrbuch Testtheorie Testkonstruktion. Bern; Huber 1996

Google Scholar
12 Shrout P E, Fleiss J L. Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin. 1979; 86 ((2)) 420-428

Crossref PubMed Google Scholar
13 Stevens S S. Measurement, psychophysics, and utility. In: Churchman CW, Ratoosh P (eds) Measurement: definitions and theory. New York; Wiley 1959

Google Scholar
14 Suen H K, Ary D. Analyzing quantitative behavioral observation data. Hillsdale, NJ; Erlbaum 1989

Google Scholar
15 Tinsley H EA, Weiss D J. Interrater reliability and agreement of subjective judgements. Journal of Counseling Psychology. 1975; 22 ((4)) 358-376

PubMed Google Scholar
16 Uebersax J S. A review of modeling approaches for the analysis of observer agreement. Investigative Radiology. 1992; 27 738-743

PubMed Google Scholar
17 Uebersax J S. Statistical methods for rater agreement [Internet]. Verfügbar unter: http://ourworld.compuserve.com/homepages/jsuebersax, 2001, last updated May 2003.

Google Scholar
18 Wirtz M, Caspar F. Beurteilerübereinstimmung und Beurteilerreliabilität. Göttingen; Hogrefe 2002

Google Scholar
19 Wolf M. Social validity: The case for subjective measurement or how applied behavior analysis is finding its heart. Journal of Applied Behavior Analysis. 1978; 1 203-214

PubMed Google Scholar

1 Hierfür muss zusätzlich gewährleistet sein, dass jedem Patienten bei jeder Beurteilung genau ein Wert zugeordnet wird: Ein Patient kann nicht mehrere Erstdiagnosen innerhalb desselben Kategoriensystems erhalten. Zudem muss das Kategoriensystem oder die verwendete Ratingskala eine angemessene Abbildung des empirischen Merkmalsspektrums erlauben.

2 Bei psychometrischen Tests gilt diese Beziehung nur eingeschränkt: Sehr hohe Reliabilität und Validität können nicht gleichzeitig erreicht werden (partielle Inkompatibilität der beiden Kardinalkriterien, [11], S. 39). Dieses Problem besteht für die Beurteilerreliabilität nicht: Hier ist eine möglichst hohe Reliabilität immer günstig für die Validität der Beurteilungen ([18], S. 208).

3 Alternative Maße wie z. B. Finns r [15] für intervallskalierte Daten werden in der modernen Literatur nicht mehr diskutiert, da diese kein Reliabilitätsmaß darstellen und gezeigt werden kann, dass trotz unreliabler Beurteilungen hohe Koeffizientenausprägungen resultieren können. Lediglich moderne Latent-trait- oder Latent-class-Ansätze für ordinalskalierte Daten stellen eine Alternative zur ICC als Reliabilitätsmaß dar [1] [17]. Das häufig angewendete Kendalls W für ordinalskalierte Daten ist ein Zusammenhangsmaß, aber kein Reliabilitätsmaß im eigentlichen Sinne [18].

4 Die Bezeichnung „einfaktoriell” ist dadurch begründet, dass varianzanalytisch nur die Unterschiede zwischen den Personen und nicht zwischen den Beurteilern modelliert werden können. Da unterschiedliche Beurteiler die Personen geratet haben, können die Unterschiede zwischen den Beurteilern nicht fehlerfrei bestimmt werden.

5 Die Homogenität der Mittelwerte ist nicht notwendig, wenn eine der justierten ICCs die angemessene Reliabilitätskennziffer ist.

ANHANG

Notation zu den verschiedenen Intraklassenkorrelationskoeffizienten

Bedeutung der Subskripte:
unjust = unjustierte ICC. Die absoluten Messwerte werden unabhängig vom jeweiligen Beurteiler interpretiert oder weiter verwertet.

just = justierte ICC. Das individuelle Mittelwertsniveau der Beurteiler wird bei der Interpretation oder Weiterverwertung der Messwerte berücksichtigt.

einfakt = Die ICC basiert auf dem einfaktoriellen varianzanalytischen Modell.

MW = Es wird die Reliabilität des Mittelwerts aller untersuchten Beurteiler geschätzt.

Eigenschaften der 6 Formen der Intraklassenkorrelation:
	Kontrolle von Mittelwertsunterschieden der Beurteiler		varianzanalytisches Design		Aggregation der Urteile
	nein unjustiert	ja justiert	einfaktorielles Design	zweifaktorielles Design	nein Einzelwerte	ja Mittelwerte
ICC_{unjust,einfakt}	ja		ja		ja
ICC_{unjust,einfakt,MW}	ja		ja			ja
ICC_unjust	ja			ja	ja
ICC_unjust,MW	ja			ja		ja
ICC_just		ja		ja	ja
ICC_just,MW		ja		ja		ja

Dr. phil. Dipl.-Psych. Markus Wirtz

Abteilung für Rehabilitationspsychologie · Institut für Psychologie · Universität Freiburg

Engelbergerstraße 41

79085 Freiburg

Email: wirtz@psychologie.uni-freiburg.de

>