US Wahlvorhersagen 2020 Prognosedebakel oder Ende gut, alles gut? Waren die US-Wahlprognosen doch nicht so schlecht?

Biden hat die Präsidentschaftswahl in den USA gewonnen. Zumindest, wenn die Gerichte die Ergebnisse nicht doch noch kippen sollten, was von den meisten Beobachtern aber als äußerst unwahrscheinlich angesehen wird. Damit hatte die große Mehrzahl der US-Pollster, die Biden in ihren Umfragen vorne sagen, recht. Anders als 2016, als Hillary Clinton gegenüber Donald Trump entgegen den Prognosen unterlag.

Ein Erfolg, viel Debakel

Ein Erfolg für die Profession der Wahl- und Meinungsforscher? Ja, wenn es darum geht, ob der „richtige“ Präsident vorhergesagt wurde. Aber leider keineswegs, wenn man die Abweichungen in den Vorhersagen betrachtet. Denn während die Prognose über den späteren Wahlsieger in 2016 zwar falsch war, lagen die Schätzungen zur Verteilung der Wählerstimmen recht präzise. So berichtete am Vorwahltag 2016 die New York Times von einem durchschnittlichen Vorsprung Clintons in den Polls von 3,1 %. Das Wahlergebnis wich davon absolut gesehen um lediglich 1 % ab mit einem Vorsprung für Clinton von 2,1% (was dann angesichts der regionalen Verteilung nicht zum Wahlsieg reichte, aber auch bei den meisten Einzelstaaten lag die Fehlerspanne noch in einem erträglichen Rahmen). Viele Demoskopen haben damals zudem auf den knappen Vorsprung von Clinton und damit die Unsicherheit des Wahlausgangs hingewiesen.

2020 dagegen schien der Vorsprung der Demokraten weitaus komfortabler, und entsprechend eindeutiger fielen die Vorhersagen aus. Umso größer ist diesmal die Abweichung zu den realen Ergebnissen: Die zum Nachrichtensender ABC News gehörende Site FiveThirtyEight, die unter Leitung des bekannten Statistikers Nate Silver auf Basis zahlreicher Umfrageergebnisse eine „Meta-Prognose“ erstellt, erwartete als letzten Stand vor der Wahl einen Vorsprung Bidens von 8,4%. Demgegenüber beträgt der Vorsprung im tatsächlichen Wahlergebnis nur ca. 2,9% der Wählerstimmen. Ein Fehler also von 5,5% und damit außerhalb aller akzeptablen Grenzen. So gesehen also doch eher ein Meinungsforscher-Debakel, wie das Handelsblatt titelte, oder ein Fiasko, wie an dieser Stelle bereits konstatiert wurde mit der bangen Frage, was das für das Ansehen der Umfrageforschung insgesamt bedeute.

Wo liegt der Fehler?

Zugegeben, die Aufgabe der Pollster war schwer. Dazu trägt nicht nur das komplizierte amerikanische Wahlsystem bei, sondern auch die Einmaligkeit der Situation, nachdem Trump die Bürger vier Jahre lang polarisiert und politisiert hat. Der dadurch entstandene Sprung in der Wahlbeteiligung – auch Verlierer Trump hat deutlich mehr Stimmen erlangt als bei seinem Sieg 2016 - kann aber nur bedingt als Begründung dienen, da die Wählermobilisierung offensichtlich auf beiden Seiten mehr Menschen an die Urnen rief als in den Wahlen zuvor. Die Ursachen sind also an anderer Stelle zu suchen.  

Als Erklärung scheinen sich hingegen vor allem zwei systematische Fehlerquellen anzubieten, die beide aus der Motivation der Befragten resultieren und in einem Fall zu einer verzerrten Stichprobe, im anderen Fall zu verzerrten Antworten innerhalb der realisierten Stichprobe führen:

  • Antwortverweigerung von Trump-Anhängern, die Umfragen als Teil des Establishments bzw. der Fake-News sehen („versteckte Trump-Wähler“). Diese Fehlerquelle ist tatsächlich relativ neu, ist aber grundsätzlich bei Wahlkämpfen mit starken populistischen und medienkritischen Tendenzen zu erwarten, und stellt so vermehrt eine Herausforderung an die Demoskopen dar.
  • Der Effekt der Sozialen Erwünschtheit in persönlichen oder telefonischen Interviews, der dazu führt, dass die geäußerten politischen Präferenzen und Wahlabsichten „sozialer“ oder weniger „extrem“ ausfallen als in der anonymen Abstimmungs-Situation. Dieser Fehler ist eigentlich altbekannt, hat aber auch durch das Aufkommen populistischer Strömungen ebenfalls an Brisanz gewonnen und in der besonders polarisierten Wahl 2020 eine womöglich besonders hohe Bedeutung erlangt. Damit könnte er nicht durch übliche, auf vergangenen Ergebnissen beruhende Korrekturfaktoren ausgeglichen worden sein. Der Effekt lässt sich zumindest in der Theorie messen, indem Erhebungsformen ohne soziale Interaktion – also Online-Befragungen oder Telefonbefragungen durch Computerstimmen – mit klassischen Face-to-Face- oder Telefoninterviews vergleichen werden. Da aber dann meist auch andere Stichprobenziehungen zugrunde liegen, und auch bei solchen nicht-persönlichen Formen soziale Erwünschtheitseffekte nicht ganz auszuschließen sind („wer weiß, wer hinterher meine Antworten sieht“), ist eine genaue Quantifizierung und damit Korrektur schwierig.

Daneben kommen die üblichen Effekte in Frage: Zu kleine Stichproben, schlechte Stichprobenziehungen, falsche Gewichtungen etc..

Natürlich tobt auch in den USA die Debatte um die richtige Stichprobe. Das Institut YouGov jedenfalls, das zur Wahlprognose Onlineerhebungen im eigenen Panel auf Basis einer MRP-Stichprobe nutzt („Multi-level Regression und Post-stratification“, also ein nicht auf einer Zufallsauswahl beruhende Stichprobe, sondern eine Quotenstichprobe, die ex post durch ein differenziertes Modell an die Population angepasst wird) und im mehrjährigen Prognosegüte-Vergleich von FiveThirtyEight ein durchaus gutes B-Rating (bei einer Spanne von A bis F) erreicht, lag trotz der vermutlich geringeren Sozialen-Erwünschtheitseffekte der Onlineerhebung noch etwas weiter vom wahren Ergebnis entfernt als der Schnitt der berücksichtigen Institute: YouGov schätzte den Vorsprung von Biden in seiner finalen Prognose auf 8,9% und prognostizierte nur 174 statt der nach derzeitigem Stand voraussichtlich 229 Wahlmänner für Trump.

Umgekehrt kämpfen Telefonumfragen in den USA ebenso wie bei in Deutschland mit hohen Verweigerungsraten. So berichtet der amerikanische Politikwissenschaftler Salvatore Babones von in den letzten 20 Jahren drastisch gesunkenen Teilnahmequoten und schließt daraus und aus Änderungen im Wählerverhalten:

Model error is here to stay. In fact, it's likely to get worse. 

Nur „good for fun“?

Noch sind die Analysen zum Prognose-Debakel im „Mutterland der Demoskopie“ nicht abgeschlossen. Schon jetzt scheint aber klar, dass Wahlprognosen – und vielleicht die Meinungsforschung insgesamt - vor enormen Herausforderungen steht. Auch wer sich wie ich der finalen Aussage von Babones nicht anschließen mag, der behauptet

“Political polling is good fun, but it should be treated more as entertainment than as serious politics”,

erkennt, dass ein bloßes „weiter so“ nicht ausreicht. Zum Glück sind Wahlen auch immer der beste Kalibrierungstest für Umfragen, und können so zu einer weiteren Verbesserung der Methoden beitragen. Ob die dann alleine durch die Optimierung klassischer Erhebungsformen und Stichprobenverfahren erreichbar sind, oder eher durch Multi-Methodenansätze, die Kombination probabilistsicher mit nichtprobabilistischen Stichprobenansätzen oder auch die Kombination von Befragungsdaten mit Sentiment-Analysen aus dem Internet, Wahlbörsen oder anderen nicht befragungs-basierten Ansätzen, wird sich zeigen – und ist am Ende wieder eine empirische Frage, die wir spätestens 2024 beurteilen können.

Bis dahin bleiben wir dran am Thema, und Sie. liebe Leser, hoffentlich auch!

Ihr Horst Müller-Peters

Horst Müller-Peters ist Professor für Betriebswirtschaftslehre, insbesondere Marketing, Marktforschung und Behavioral Economics an der Technischen Hochschule Köln. Zuvor war er Vorstandsvorsitzender der Marktforschungs- und Unternehmensberatungsunternehmens psychonomics AG. Er ist Mitgründer und Herausgeber der Branchenportale CONSULTING.de und marktforschung.de.

PS: Der Shift von Trump zu Biden im Verlauf der Auszählung – und damit das erst spät erkennbare „wahre“ Ergebnis – konnte nur dadurch zustande kommen, dass alle Stimmen und nicht nur die ersten 95% ausgezählt wurden, und dass die Art der Stimmenabgabe und damit deren Auszählungszeitpunkt hoch mit der politischen Präferenz korrelierten. Ein Lehrstück für alle Meinungsforscher bezüglich der Bedeutung hoher Ausschöpfungsquoten und der Chancen eines Multi-Mode-Ansatzes, indem den Befragten mehrere „Erhebungsformen“ zur Auswahl angeboten werden.

 

Diskutieren Sie mit!     

  1. Bernd Untiedt am 09.11.2020
    Noch sind längst nicht alle Stimmen ausgezählt. In den Staaten, in denen der Gewinner klar ist (z.B. Kalifornien und New York) sind erst 85% ausgezählt. Die verbleibenden Briefwahlstimmen gehen überwiegend auf das Konto von Biden. Daher wird sich der Abstand zwischen Biden und Trump noch um einige Millionen Stimmen vergrößern. Die Prognose zum Popular Vote sieht dann am Ende gar nicht mehr so schlecht aus.
  2. Horst Müller-Peters am 12.11.2020
    Sehr geehrter Herr Untiedt, vielen Dank für Ihren wichtigen Hinweis.

    In der Tat führen die noch nicht ausgezählten Stimmen dazu, dass sich die Kluft etwas weiter schließt. Nach derzeitigem Stand beträgt der Fehler in der aggregierten Prognose von FiveThirtyEight nicht mehr wie oben dargestellt 5,5%, sondern ziemlich genau 5,0 %, während der Fehler der ebenfalls zitierten YouGov-Prognose nun bei 5,5 % liegt. Nach Auszählung auch der letzten Stimmen wird sich der finale Fehler wohl noch etwas niedriger – im Falle der FiveThirtyEight-Prognose irgendwo in der Mitte zwischen 4 und 5 % bei YouGov um 5% - einpendeln. Aber auch damit fallen die Prognose im jüngeren historischen Vergleich ausgesprochen schlecht aus; deutlich schlechter als 2016, und nur zweimal seit Beginn der siebziger Jahre (am markantesten bei der Wahl Carter gegen Reagen 1980) lag der Schätzfehler höher als in diesem Jahr.

    Nochmals deutlich stärker sind die Abweichungen naturgemäß auf Ebene zahlreicher Bundesstaaten, sowohl in Bezug auf den Präsidenten als auch in Bezug auf den Senat. In den Swing-States stechen bspw. Wisconsin, Iowa und Florida mit Fehlern bei der Präsidentenwahl von 6 bis 7% hervor, in weniger knappen Staaten lagen die Abweichungen zum Teil nochmals deutlich darüber.
    Auswertungen und Hintergründe dazu hat Nate Silver, Gründer von FiveThirtyEight und Urheber dessen Prognosemodells, gestern selbst in einem Kommentar veröffentlicht. Sehr lesenswert, auch wenn er die Fehlermarge meines Erachtens – vielleicht nicht ganz uneigennützig - etwas zu schön redet, https://fivethirtyeight.com/features/the-polls-werent-great-but-thats-pretty-normal/?ex_cid=EU . (Ein Dank an den Leser, der mich gestern Abend direkt auf das Erscheinen dieses Beitrags hingewiesen hat.)
  3. Horst Müller-Peters am 29.11.2020
    Ein kurzes Update: Auch fast 4 Wochen nach der Wahl sind immer noch nicht alle Ergebnisse zertifiziert und erst 98% der Stimmen ausgezählt. Nach aktuellem Stand liegt der Prognosefehler von FiveThirtyEight bei 4,4% und von YouGov bei 4,9% (Wahlergebnisse nach https://cookpolitical.com/2020-national-popular-vote-tracker, Abruf am 29.11.). Das im historischen Vergleich ausgesprochen schlechte Abschneiden der Prognosen scheint sich damit zu bestätigen.

Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.

Anmelden

Weitere Highlights auf marktforschung.de