Siegel der Universität Heidelberg
Bild / picture

Die Regressionsfalle

Sie ist tückisch und nur schwer zu erkennen. Selbst intelligente und in formalem Denken geübte Menschen laufen nur allzu oft in die "Regressionsfalle" – die Ursache vieler Denkfehler und Fehlbeurteilungen. Klaus Fiedler vom Psychologischen Institut der Universität Heidelberg erklärt das universelle Prinzip der Regression anhand überraschender Alltagsbeispiele und zeigt, wie man die schwerwiegenden Fehlerquellen menschlichen Denkens erkennen und vermeiden kann. Für seine Forschungsarbeiten erhielt Klaus Fiedler kürzlich den renommierten Leibniz-Preis der Deutschen Forschungsgemeinschaft.

Wenn Psychologen über "Regression" reden, meinen sie damit meist den Rückfall auf eine frühere Entwicklungsstufe. Ebenso spannend und provokativ wie diese psychoanalytische Auslegung des Begriffs ist das Konzept der "statistischen Regression" – der Gegenstand dieses Artikels. So trocken und formal der Terminus aus der mathematischen Statistik zunächst anmuten mag, ist er doch von großer Bedeutung, um Denkfehler und Fehlbeurteilungen zu verstehen und zu überwinden. Die "Regressionsfalle" ist tückisch und schwer zu erkennen; selbst intelligente und in formalem Denken ausgebildete Menschen übersehen sie nur allzu oft. Sie zu meistern, verlangt eine ungewohnte Denkweise, gegen die sich der Mensch intuitiv wehrt. Und genau das macht die heimlichen Fallen so gefährlich.

Betrachten wir zur Illustration eine Anekdote über Francis Galton. Der Vetter des berühmten Naturforschers Charles Darwin zeichnete akribisch die Größenunterschiede von Vätern und Söhnen auf und stellte dabei fest, dass die Söhne von sehr großen Vätern regelmäßig kleiner und die Söhne sehr kleiner Väter meist größer waren. Demnach sollten sich große und kleine Leute über die Generationen hinweg angleichen. Zugleich ermittelte Galton auch das Umgekehrte: Sehr große Söhne haben im Schnitt kleinere Väter, sehr kleine Söhne größere Väter. Demnach sollten die Unterschiede von großen und kleinen Leuten über Generationen hinweg immer weiter zunehmen (siehe Abbildung auf Seite 18 links).

Die Auflösung dieses Paradox ist auch für Nicht-Mathematiker nachvollziehbar. Immer, wenn der Zusammenhang zwischen zwei gemessenen Variablen – zum Beispiel zwischen der Größe von Söhnen und Vätern – nicht perfekt ist, dann ist eine Darstellung der zweiten Messung als Funktion der ersten Messung regressiv. Das heißt, diejenigen Messpunkte, die bei der ersten Messung extrem waren, regredieren bei der zweiten Messung zur Mitte. Zunächst hohe Werte fallen bei der zweiten Messung niedriger aus, und niedrige Werte liegen bei der zweiten Messung meist höher. Die Regressionskurve (siehe Abbildung auf Seite 18 rechts unten) hat somit eine Steigung < 1. Am gewählten Größen-Beispiel kann man sich das so erklären: Beide Messungen geben die zugrunde liegende Gemeinsamkeit – die gemeinsamen Erbanlagen von Vätern und Söhnen – nicht fehlerfrei wieder. Die Körpergröße hängt nämlich nicht nur von den Genen, sondern auch von "Störfaktoren" ab, die Väter und Söhne unterschiedlich beeinflussen, beispielsweise das Erbgut der Mütter, verschiedene Ernährungs- oder Lebensbedingungen. Wiederholte Messungen von empirischen Größen, die teilweise verschiedenen Einflüssen unterliegen, können daher divergieren.

Relative Abwertung von Minderheiten durch Regression

Mathematisch betrachtet beruht die Regressionsfalle darauf, dass die Fehler, die hohen, mittleren und niedrigen Messwerte anhaften, nicht gleich sind. Je extremer ein Messwert ausfällt, umso wahrscheinlicher ist es, dass der wahre, fehlerbereinigte Wert weniger extrem ist. Sehr hohe Messwerte stellen eher Überschätzungen dar, sehr niedrige Messwerte eher Unterschätzungen; bei mittleren Messwerten sind Fehler in beide Richtungen gleich wahrscheinlich. Hält man die Werte der ersten Messung als Abszissenwerte fest (wie in der Abbildung auf Seite 18 rechts unten), dann zeigen sich die regressiven Werte der zweiten Messung auf der Ordinaten; aus großen Werten werden kleinere und aus kleinen Werten größere. Der Stärke des Effekts kann man schätzen. Liegen die beiden Messungen x und y als Abweichungen vom Mittelwert vor, dann gilt y = x R, wobei die Reliabilität R ein Maß dafür ist, wie sehr die beiden Variablen etwas Gemeinsames messen. Liegt die erste Messung um 10 über dem Mittel (x = +10) und die Reliabilität beträgt R = 0.60, dann regrediert die zweite Messung im Erwartungswert auf y = +10 · 0.60 = +6 (nur noch 6 über dem Mittel). Oder ein extrem kleiner Messwert von 20 unter dem Mittel (x = -20) regrediert auf y = -20 · 0.60 = -12. Man sieht, dass Regression bei extremen Werten größer ist als bei moderaten und bei unreliablen Messungen (kleines R) stärker als bei reliablen.

Illustration

Illustration der statistischen Regression anhand fiktiver Daten über die Körpergröße von Söhnen und Vätern. Extreme (sehr große oder sehr kleine) Väter haben im Durchschnitt weniger extreme Söhne. Umgekehrt haben aber auch extreme Söhne weniger extreme Väter.

Was regressive Prozesse intuitiv so schwer zu verstehen macht, ist, dass sie dem vorherrschenden Trend zuwider laufen. In jedem hohen Messwert steckt das Potential zum Absinken und in jedem niedrigen Messwert das Potential zum Anstieg. Nichts könnte diese Schwierigkeit besser illustrieren als das gegenwärtige Lieblingsspielzeug der menschlichen Intelligenz, die Börse. Wenn eine Aktie über ein Jahr hinweg bessere Gewinne erzielte als der Markt, dann schließen Anleger daraus, dass diese Aktie überlegen ist, und kaufen sie. Schneidet ein Titel schlechter ab als der übrige Markt, dann suchen sie einen Grund in der Schwäche des Titels. Häufig erweisen sich der aktuelle Anstieg beziehungsweise Abfall jedoch als "stationäre" Zufallsschwankung. Normale Regression führt dazu, dass hohe Werte wieder abfallen und niedrige Werte wieder ansteigen. Für ein bestimmtes Marktsegment (Newsletters) konnte gezeigt werden, dass der systematische Ankauf von Papieren, die bessere Ergebnisse erzielten als der Markt insgesamt, über 15 Jahre zu einem Gewinn von 95 Prozent führt, der systematische Ankauf von erfolglosen Papieren hingegen führte zu einem Gewinn von 330 Prozent (Der Markt selbst erreichte im selben Zeitraum übrigens 550 Prozent Gewinn).

Illustration

Die mittlere Körpergröße der Söhne von großen Vätern ist geringer, während die mittlere Größe von kleinen Vätern größer ist. Die Regressiongerade hat somit eine Steigung von 1 (fiktive Daten).

Intuitiv neigen Menschen dazu, von positiven Ergebnissen auf positive Eigenschaften und von negativen Ergebnissen auf negative Eigenschaften zu schließen. Das Prinzip der Regression verlangt aber das genaue Gegenteil. Ein Beispiel aus der Erziehung soll diesen Konflikt verdeutlichen: Lehrer und Erzieher schließen von positivem Verhalten eines Kindes auf positive Eigenschaften und loben das Kind; von schlechtem Verhalten schließen sie auf schlechte Eigenschaften und bestrafen das Kind. Diese vorherrschende Tendenz, auf interne Eigenschaften zu schließen, lenkt jedoch von der Tatsache ab, dass das Verhalten von Kindern auch von vielen äußeren Einflüssen und zufälligen Schwankungen abhängt. Nach mustergültigem Verhalten folgt häufig weniger positives Benehmen; nach besonders schlechtem Verhalten kann es nur besser werden. Diese völlig normalen, regressiven Schwankungen erzeugen die schwerwiegende Illusion, dass Bestrafung wirksamer ist als Belohnung. Denn wenn schlechtes Verhalten bestraft wird, besagt die nachfolgende Regression, dass die Bestrafung wirksam war. Belohnung für positives Verhalten scheint jedoch nur Undank hervorzurufen, denn Regression bedeutet eine Verschlechterung. Dass viele Lehrer und Erzieher im Laufe der Zeit immer mehr zu strengen Maßnahmen neigen, dürfte somit teilweise auf einer statistischen Illusion beruhen.

Illustration

Weil über eine fremde Gruppe weniger Beobachtungen vorliegen als über die eigene Gruppe, ist der Regressionseffekt stärker. Es entsteht ein weniger differenziertes Bild der Fremdgruppe (das heißt, weniger überschwellige, in dunkelblau hervorgehobene Attribute).

Ein drittes Beispiel ist die Replikation wissenschaftlicher Untersuchungen. Wenn ein Experiment ein neues Ergebnis gebracht hat, dann sollte sich dies replizieren lassen. Forscher sind oftmals enttäuscht oder verwerfen den innovativen Befund, wenn er beim zweiten Versuch nicht mehr so deutlich zu sehen ist. Tatsächlich ist nur dies aber zu erwarten. Da empirische Messungen immer fehlerbehaftet sind, fallen die Ergebnisse einer Replikationsstudie im Erwartungswert schwächer aus.

Illustration

Mittlere Häufigkeitsschätzung von drei Rauten, sechs Dreiecken und zwölf Kreisen, wobei die Dreiecke entweder als eine einzige Kategorie behandelt werden (linke Grafik) oder aber aufgesplittet in zwei Subkategorien (rechte Grafik).

Im Weiteren werden eine Reihe von psychologischen Befunden, die traditionell anders erklärt werden, alternativ durch Regressionseffekte erklärt. Die Abwertung von Minderheiten ist ein besonders denkwürdiges Phänomen, das traditionell durch ganz andere Konzepte erklärt wird: rassistische Vorurteile, ethnische Konflikte oder den besonderen Aufmerksamkeitswert von Fehltritten einer Minderheit. Inzwischen weiß man indessen, dass die Tragik von Minderheiten zu einem beträchtlichen Teil auf einer statistischen Täuschung beruht. Dies kann man in kontrollierten Experimenten demonstrieren. Versuchsteilnehmer bekommen positive und negative Verhaltensweisen von Mitgliedern zweier Gruppen gezeigt. Wie in der realen Welt tritt positives Verhalten häufiger auf als negatives (das ja normabweichend ist), und naturgemäß liegen über die größere Gruppe (Mehrheit) mehr Beobachtungen vor als über die kleine (Minderheit). In einem typischen Experiment zeigt die Mehrheit 18-mal positives und 8-mal negatives Verhalten, die Minderheit 9-mal positives und 4-mal negatives Verhalten. Beide Gruppen verhalten sich mit derselben relativen Häufigkeit positiv: 18/(18+8) = 9/(9+4) = 69 Prozent. Trotzdem zeigen solche Experimente, dass die Minderheit schlechter bewertet wird als die Mehrheit. Der Grund liegt in der Regressivität des menschlichen Gedächtnisses. Weil das Gedächtnis von 39=18+8+9+4 Beobachtungen nicht fehlerfrei ist, entsteht ganz normale Regression. Es geht Information verloren; das Verhältnis von 69 Prozent positiven und 31 Prozent negativen Verhaltensweisen wird weniger extrem erinnert. Dieser Regressionseffekt ist jedoch für die Minderheit schlimmer als für die Mehrheit. Wegen der geringen Zahl von Beobachtungen über die Minderheit ist die Reliabilität überaus gering. Während das erinnerte Verhältnis für die Mehrheit bei etwa 60 Prozent positiven und 40 Prozent negativen Beobachtungen liegt, geht der Unterschied bei der Minderheit auf Grund zu weniger Beobachtungen fast ganz verloren (siehe Abbildungen auf Seite 18 rechts oben).

So befinden sich Minderheiten in einer tragischen Rolle: Auch wenn sie mit derselben Rate angepasstes Verhalten zeigen, und wenn in der Gesellschaft weder Vorurteile noch Gruppenkonflikte bestehen, werden Minderheiten auch wegen einer statistischen Illusion abgewertet. Die höhere Auftretensrate von positiven als von negativen Verhaltensweisen wird für Minderheiten weniger deutlich als für Mehrheiten, weil seltenere Beobachtungen die Reliabilität herabsetzen und damit mehr Regression bewirken.

Dasselbe Prinzip liefert eine entwaffnend einfache Erklärung für das Phänomen der Diskrimination von Fremdgruppen und die gleichzeitige Aufwertung der eigenen Gruppe. Dass Angehörige der eigenen Geschlechtergruppe, der eigenen Nationalität oder des eigenen Fußballvereins positiver bewertet werden als das andere Geschlecht, eine fremde Nation oder ein anderer Verein, wird traditionell durch selbstdienliche Motive erklärt. Unter der nahe liegenden Annahme, dass über Fremdgruppen in der Regel weniger Daten vorliegen als über Eigengruppen, muss man indessen erkennen, dass Regression der eigenen Gruppe weniger schadet als der fremden. Denn die vorherrschende Tendenz zum Positiven wird unterschätzt oder ganz übersehen, wenn die Beobachtungs-Stichproben verarmt sind, und das ist vor allem bei fremden Gruppen der Fall. Der oftmals zitierte Befund, dass Vorurteile und Diskrimination durch vermehrten Kontakt und zunehmende Erfahrung mit fremden Gruppen abgebaut wird, ist voll vereinbar mit dieser statistischen Erklärung.

Ein anderes häufig diskutiertes Phänomen ist die Homogenisierung von Fremdgruppen, also die vereinfachende Tendenz, bei der Beurteilung von fremden Gruppen alles über einen Kamm zu scheren und weniger zu differenzieren als bei der eigenen Gruppe. Auch dieser Aspekt von sozialen Stereotypen wird gewöhnlich motivational erklärt (durch den Wunsch nach Individualität) oder durch qualitativ verschiedene Repräsentationen von Fremd- und Eigengruppen im Gedächtnis. Fast gänzlich vergessen wurde die einfachste aller Erklärungen, nämlich die durch das Prinzip der Regression. Diese kommt ohne weitere Annahmen über Motivation und Gedächtnis aus. Nehmen wir einfach an, dass Fremdgruppe und Eigengruppe sich in Wirklichkeit nicht in ihrer Differenziertheit unterscheiden, das heißt, die Anzahl beziehungsweise Vielfalt der häufig auftretenden Merkmale (symbolisiert durch die Zahl der Säulen in der Abbildung auf Seite 19 links) sei für beide Gruppen dieselbe. Die Erfassung dieser Merkmale ist jedoch nicht fehlerfrei, so dass in der subjektiven Wahrnehmung die wahre Ausprägung vieler Merkmale in regressiver Weise unterschätzt wird. Da die Regression bei fremden Gruppen wegen der geringen Datenbasis besonders stark ausgeprägt ist, bleibt die subjektiv wahrgenommene Ausprägung vieler Merkmale bei der Fremdgruppe unerkannt (das heißt unter einer bestimmten Schwelle; hellblaue Säulensockel in der Abbildung auf Seite 19 links). Die größeren Erfahrungsstichproben für die Eigengruppe führen dazu, dass eine größere Zahl von Merkmalen überschwellig erkannt wird (dunkelblaue Säulenenden), so dass ein differenzierteres, merkmalsreicheres Bild entsteht.

Regression ist ein universelles Prinzip, das nicht nur für subjektive Urteile, sondern auch für statistische Erhebungen und Umfragen gilt. So wie durch Erosion der Unterschied zwischen Berg und Tal immer mehr verringert wird, gehen die Unterschiede zwischen hohen und niedrigen Messwerten oder Häufigkeiten durch Fehlereinflüsse (Messungenauigkeit, Vergessen etc.) verloren. So wird der tatsächliche Unterschied von sehr großen und kleinen Risiken im Erwartungswert ebenso unterschätzt wie der Unterschied von guten und schwachen Schülern in der Bewertung von Lehrern oder der Qualitätsunterschied von Konsumgütern. Der Einfluss dieser statistischen Tendenz bedeutet jedoch keineswegs immer eine erosionsartige Angleichung, sondern kann auch zur systematischen Über- oder Unterschätzung beitragen – und zu statistischen Manipulationen missbraucht werden. Ein Beispiel hierfür liefert der "Category Split Effect". Angenommen, ein Autohändler möchte einen Kunden davon überzeugen, dass das Netz japanischer Händler in Europa schon sehr dicht ist, und bittet den Kunden daher, einmal zu schätzen, wie viele japanische Autos wohl heute schon auf europäischen Straßen fahren. Ein anderer Händler fragt in der gleichen Situation seine Kunden zu schätzen, wie viele Mazda, Honda, Nissan, Mitsubishi und Suzuki es in Europa gibt, und zählt die erhaltenen Schätzungen dann mit dem Kunden zusammen. Welcher von beiden Autohändlern ist erfolgreicher darin, seine Kunden von der Dichte japanischer Wagen zu überzeugen? Sicher ist es der letztere, der (ohne es zu wissen) einen Category Split Effect zu seinen Gunsten ausnutzt. Splittet man eine mittelhäufige oder moderat seltene Kategorie (japanische Autos) auf in eine größere Zahl von seltenen oder sehr seltenen Unterkategorien (Mazda, Honda, etc.), dann ist die Summe der Unterkategorien mehr als die ursprüngliche Kategorie. Denn durch Regression werden die resultierenden kleineren, selteneren Subkategorien allemal überschätzt, relativ zu den größeren Ausgangskategorien.

Das kann man in jedem psychologischen Praktikum ganz leicht demonstrieren. Zeigt man Versuchspersonen in zufälliger Folge eine längere Serie von geometrischen Formen, etwa zwölf Kreise, sechs Dreiecke und drei Rauten, und lässt sie dann die Häufigkeit der drei Formen schätzen, dann könnte eine typische Antwort lauten: neun Kreise, sechs Dreiecke und fünf Rauten – also ganz normale regressive Antworten. Splittet man jedoch die sechs Dreicke in drei gleichseitige und drei ungleiche auf, dann lauten die Schätzungen typischerweise: acht Kreise, fünf gleichseitige Dreiecke, fünf ungleiche Dreiecke und fünf Rauten. Aus den ursprünglich sechs Dreiecken werden also durch das Aufsplitten in zwei kleinere Subkategorien geschätzte 5+5 = 10 Dreiecke (siehe die beiden Abbildung auf Seite 19 rechts).

Was für diese harmlose Demonstration gilt, kann in Ökonomie und Politik ernsthafte Auswirkungen haben. So kann ein Hersteller seinen Marktanteil für Produkt X erhöhen, wenn er zwei ähnliche Produkte X1 und X2 anbietet. Oder der gesamtgesellschaftliche Einfluss einer radikalen politischen Ausrichtung kann (bei gleichem Wählerpotential) zunehmen, wenn sich eine radikale Partei in zwei Parteien aufspaltet. Aus dem Vorherigen sollte schon deutlich sein, dass solche Auswirkungen gerade dann erwartet werden können, wenn Käufer oder Wähler nicht festgelegt sind, sondern zufälligen, "fehlerhaften" Einflüssen unterliegen.

Die Reihe der statistischen Illusionen, die durch Regression entstehen, ließe sich noch lange fortsetzen. Einige davon sind von großer praktischer Bedeutung und keinesfalls nur akademische Spielerei. So sind unverstandene oder unerkannte Regressionseffekte wirksam im Spielcasino, bei der Interpretation von politischen Wahlen oder bei naiven Diskussionen über Erb- und Umwelteinflüsse (wo Regression oft als Überlegenheit genetischer Einflüsse gesehen wird). Die hier illustrierten Beispiele sollten nur einen ersten Einblick in eine schwerwiegende Fehlerquelle des menschlichen Denkens geben. Ein Ziel dieses Artikels liegt darin, die Phantasie von interessierten Lesern anzuregen, auf dass sie selbst etwas mehr auf die vielen Regressionsfallen achten, welche in der sozialen, physischen, politischen und ökonomischen Welt an so vielen Plätzen aufgestellt sind. Der Nutzen eines aufgeklärteren Umgangs mit Statistik ist manchmal beträchtlich. Die Kosten für Fehltritte in die Regressionsfalle lassen sich nur ahnen.

Autor:
Prof. Dr. Klaus Fiedler
Psychologisches Institut, Hauptstraße 47, 69117 Heidelberg,
Telefon (0 62 21) 54 72 70, Fax (0 62 21) 54 77 45

Seitenbearbeiter: Email
zum Seitenanfang