Interrater-Reliabilität in der Psychiatrie: Quantitative Evidenz für systematische Diagnostikfehler

Abstract

Hintergrund: Die Zuverlässigkeit psychiatrischer Diagnosen zwischen verschiedenen Beurteilern ist ein kritischer Qualitätsindikator für die diagnostische Validität. Diese Übersichtsarbeit analysiert quantitative Daten zur Interrater-Reliabilität häufiger psychiatrischer Störungen.

Methodik: Systematische Literaturauswertung von Meta-Analysen, DSM-5 Field Trials und Originalstudien zu Kappa-Statistiken bei psychiatrischen Diagnosen.

Ergebnisse: Die DSM-5 Field Trials zeigen ernüchternde Reliabilitätswerte für häufige Störungen. Major Depression erreicht Kappa-Werte im «schlechten» Bereich, während strukturierte Interviews deutlich höhere Reliabilität zeigen als unstrukturierte klinische Interviews. Die diagnostische Stabilität über Zeit ist problematisch, mit häufigen Diagnosewechseln bei Erstpsychosen.

Schlussfolgerungen: Die quantitative Evidenz belegt fundamentale Reliabilitätsprobleme in der psychiatrischen Diagnostik mit systematischen Auswirkungen auf Behandlungsentscheidungen und Forschungsvalidität.

Einleitung

Die Zuverlässigkeit psychiatrischer Diagnosen zwischen verschiedenen Beurteilern stellt einen fundamentalen Qualitätsindikator für die Validität diagnostischer Systeme dar. Cohen’s Kappa-Statistik gilt als Goldstandard zur Bewertung der Übereinstimmung zwischen Ratern, wobei Werte unter 0,40 als «schlecht», 0,40-0,59 als «mässig», 0,60-0,74 als «gut» und über 0,75 als «exzellent» klassifiziert werden. Die vorliegende Analyse untersucht systematisch die verfügbare quantitative Evidenz zur Interrater-Reliabilität bei den häufigsten psychiatrischen Störungen.

Methodik

Diese Übersichtsarbeit basiert auf einer systematischen Auswertung wissenschaftlicher Datenbanken für den Zeitraum 2010-2025. Eingeschlossen wurden Meta-Analysen, systematische Reviews und Originalstudien mit quantitativen Kappa-Statistiken für psychiatrische Diagnosen. Besonderes Gewicht erhielten die DSM-5 Field Trials als methodisch rigoroseste Untersuchung zur diagnostischen Reliabilität.

Ergebnisse

DSM-5 Field Trials: Ernüchternde Baseline-Daten

Die DSM-5 Field Trials mit über 2200 Patienten an elf akademischen Zentren repräsentieren die bislang umfassendste Untersuchung zur diagnostischen Reliabilität in der Psychiatrie (Regier et al., 2013; Clarke et al., 2013). Die Ergebnisse offenbaren systematische Schwächen bei den häufigsten Störungen.

Die Field Trials wurden mit dem Ziel durchgeführt, präzise Schätzungen der Interrater-Reliabilität zu erhalten. Dabei verwendeten die Forscher ein Test-Retest-Design mit stratifizierter Stichprobenziehung. Die Ergebnisse zeigten, dass nur wenige Diagnosen eine «gute» bis «sehr gute» Reliabilität erreichten: PTSD, komplexe somatische Symptomstörung und Major Neurocognitive Disorder erreichten Kappa-Werte im Bereich von 0,60-0,79. Sieben Diagnosen fielen in den «guten» Bereich (Regier et al., 2013).

Besonders problematisch zeigten sich jedoch die Reliabilitätswerte für einige der häufigsten psychiatrischen Störungen. Die publizierten Daten dokumentieren, dass viele Diagnosen nur «fragwürdige» oder «unzureichende» Reliabilität aufwiesen. Dies ist besonders besorgniserregend, da diese Diagnosen die Grundlage für Millionen von Behandlungsentscheidungen bilden.

Strukturierte versus unstrukturierte Interviews: Der Reliabilitäts-Gap

Der Vergleich zwischen strukturierten und unstrukturierten diagnostischen Verfahren offenbart die fundamentale Subjektivität klinischer Urteile. Strukturierte Interviews wie das SCID (Structured Clinical Interview for DSM) zeigen konsistent höhere Reliabilitätswerte als unstrukturierte klinische Interviews, die in der Routinepraxis dominieren.

Meta-analytische Befunde dokumentieren, dass die Übereinstimmung zwischen klinischen Einschätzungen und standardisierten diagnostischen Interviews oft niedrig ist. Diese Diskrepanz bedeutet, dass die Standardpraxis in der Psychiatrie – das unstrukturierte klinische Interview – erhebliche Reliabilitätsprobleme aufweist.

Diagnostische Instabilität über Zeit

Längsschnittstudien dokumentieren besorgniserregende diagnostische Instabilität. Studien zu Erstpsychosen zeigen, dass ein erheblicher Anteil der Patienten im Zeitverlauf ihre ursprüngliche Diagnose wechselt. Dies ist besonders problematisch bei Störungen wie kurzen psychotischen Störungen und schizoafformen Störungen.

Die Unterscheidung zwischen bipolarer und unipolarer Depression – kritisch für die Therapiewahl – zeigt ebenfalls erhebliche diagnostische Unsicherheiten. Viele Patienten mit bipolarer Störung werden initial falsch diagnostiziert, was zu inadäquater Behandlung führt.

Professionelle Unterschiede verstärken die Unzuverlässigkeit

Die Übereinstimmung zwischen verschiedenen Berufsgruppen ist oft niedrig. Studien zeigen, dass zwischen Hausärzten und Psychiatern bei psychiatrischen Diagnosen nur moderate Übereinstimmung besteht. In Notaufnahme-Settings sind die Reliabilitätswerte ebenfalls suboptimal.

Die Expertise-Paradoxie: Maj et al. (2021)

Eine besonders aufschlussreiche Studie von Maj et al. (2021) in World Psychiatry untersuchte die diagnostische Übereinstimmung bei der Charakterisierung von Patienten mit primärer Psychose. Die Autoren – ein internationales Konsortium führender Psychose-Experten – betonten die Notwendigkeit einer personalisierten Diagnostik und Behandlung, gerade weil die kategoriale Diagnostik allein unzureichend ist.

Die Studie dokumentiert, dass selbst bei strukturierter Erfassung multiple Domänen berücksichtigt werden müssen: positive und negative Symptome, Kognition, Entwicklungsgeschichte, Komorbidität und Umweltfaktoren. Dies unterstreicht die Komplexität psychiatrischer Diagnostik und erklärt teilweise die niedrigen Reliabilitätswerte.

Systematische Quellen der Unzuverlässigkeit

Forschung identifiziert drei Hauptquellen diagnostischer Unzuverlässigkeit:

Inadäquate diagnostische Kriterien (größter Anteil)
Unterschiede zwischen Klinikern
Patientenfaktoren (kleinster Anteil)

Dies bedeutet, dass das Problem primär im diagnostischen System selbst liegt, nicht bei individuellen Fehlern. Kulturelle Faktoren verstärken die Problematik zusätzlich, da unterschiedliche kulturelle Hintergründe die Symptompräsentation und -interpretation beeinflussen.

Diskussion

Die quantitative Evidenz zur Interrater-Reliabilität in der Psychiatrie zeichnet ein besorgniserregendes Bild systematischer diagnostischer Unzuverlässigkeit. Die DSM-5 Field Trials, als methodisch rigoroseste Untersuchung, zeigen dass viele psychiatrische Diagnosen nicht die Reliabilitätsstandards erreichen, die in anderen medizinischen Bereichen üblich sind.

Die Tatsache, dass der Großteil der Unzuverlässigkeit auf das diagnostische System selbst zurückgeht – nicht auf individuelle Fehler – unterstreicht die systemische Natur des Problems. Die diagnostische Instabilität im Zeitverlauf verstärkt diese Bedenken zusätzlich.

Implikationen für die klinische Praxis

Diese Befunde haben weitreichende Konsequenzen:

Unvorhersagbare Behandlungsentscheidungen basierend auf unzuverlässigen Diagnosen
Millionenfache Verschreibung von Psychopharmaka auf fragwürdiger diagnostischer Grundlage
Invalidierung von Forschungsergebnissen durch diagnostische Heterogenität
Enorme psychosoziale und ökonomische Kosten durch Fehlbehandlungen

Lösungsansätze: Der Weg zu objektiven Biomarkern

Angesichts dieser fundamentalen Reliabilitätsprobleme wird die Integration objektiver neurobiologischer Biomarker zur dringenden Notwendigkeit. Die Gehirn- und Traumastiftung Graubünden (GTSG) verfolgt genau diesen Ansatz mit ihrem Biomarker Workshop 2025.

Die GTSG nutzt EEG und ereigniskorrelierte Potentiale (ERPs) zur objektiven Erfassung der Hirnaktivität. Diese neurophysiologischen Marker bieten mehrere Vorteile:

Objektive, messbare Indikatoren statt subjektiver Einschätzungen
Hohe Test-Retest-Reliabilität bei standardisierten Protokollen
Kosteneffizient und nicht-invasiv
Bereits in vielen klinischen Settings verfügbar

Der Workshop am 11. Dezember 2025 in Zürich bringt internationale Experten zusammen, darunter Tony Attwood und Michelle Garnett mit 80 Jahren klinischer Erfahrung, um die praktische Implementation von Biomarkern bei ADHS, Autismus und Angststörungen voranzutreiben.

Schlussfolgerungen

Die umfassende quantitative Evidenz belegt fundamentale Reliabilitätsprobleme in der aktuellen psychiatrischen Diagnostik. Die dokumentierte diagnostische Unzuverlässigkeit stellt die Validität rein verhaltensbasierter Diagnostik in Frage.

Die Integration objektiver neurobiologischer Biomarker, wie sie die GTSG vorantreibt, stellt nicht nur eine wünschenswerte Verbesserung dar, sondern eine wissenschaftliche und ethische Notwendigkeit. Der paradigmatische Wandel von kategorialer zu dimensionaler, biomarker-gestützter Diagnostik ist unausweichlich für eine evidenzbasierte Psychiatrie des 21. Jahrhunderts.

Literaturverzeichnis

Clarke, D. E., Narrow, W. E., Regier, D. A., Kuramoto, S. J., Kupfer, D. J., Kuhl, E. A., … & Kraemer, H. C. (2013). DSM-5 field trials in the United States and Canada, Part I: Study design, sampling strategy, implementation, and analytic approaches. American Journal of Psychiatry, 170(1), 43-58.

Maj, M., van Os, J., De Hert, M., Gaebel, W., Galderisi, S., Green, M. F., … & Ventura, J. (2021). The clinical characterization of the patient with primary psychosis aimed at personalization of management. World Psychiatry, 20(1), 4-33.

Narrow, W. E., Clarke, D. E., Kuramoto, S. J., Kraemer, H. C., Kupfer, D. J., Greiner, L., & Regier, D. A. (2013). DSM-5 field trials in the United States and Canada, Part III: Development and reliability testing of a cross-cutting symptom assessment for DSM-5. American Journal of Psychiatry, 170(1), 71-82.

Regier, D. A., Narrow, W. E., Clarke, D. E., Kraemer, H. C., Kuramoto, S. J., Kuhl, E. A., & Kupfer, D. J. (2013). DSM-5 field trials in the United States and Canada, Part II: Test-retest reliability of selected categorical diagnoses. American Journal of Psychiatry, 170(1), 59-70.

Biomarker Workshop 2025: Objektive Diagnostik als wissenschaftliche Notwendigkeit

Dezember 2025 | Zürich (Hybrid)

Die quantitative Evidenz zur Interrater-Reliabilität unterstreicht die dringende Notwendigkeit objektiver neurobiologischer Biomarker in der psychiatrischen Diagnostik.

Anmeldung: https://gtsg.ch/de/biomarker-workshop-2025-2/

GTSG – Gehirn- und Traumastiftung Graubünden