- marktforschung.de
- Marktforschung
- Prognosedebakel oder Ende gut, alles gut? Waren die US-Wahlprognosen doch nicht so schlecht?
US Wahlvorhersagen 2020 Prognosedebakel oder Ende gut, alles gut? Waren die US-Wahlprognosen doch nicht so schlecht?

Ein Erfolg, viel Debakel
Ein Erfolg für die Profession der Wahl- und Meinungsforscher? Ja, wenn es darum geht, ob der „richtige“ Präsident vorhergesagt wurde. Aber leider keineswegs, wenn man die Abweichungen in den Vorhersagen betrachtet. Denn während die Prognose über den späteren Wahlsieger in 2016 zwar falsch war, lagen die Schätzungen zur Verteilung der Wählerstimmen recht präzise. So berichtete am Vorwahltag 2016 die New York Times von einem durchschnittlichen Vorsprung Clintons in den Polls von 3,1 %. Das Wahlergebnis wich davon absolut gesehen um lediglich 1 % ab mit einem Vorsprung für Clinton von 2,1% (was dann angesichts der regionalen Verteilung nicht zum Wahlsieg reichte, aber auch bei den meisten Einzelstaaten lag die Fehlerspanne noch in einem erträglichen Rahmen). Viele Demoskopen haben damals zudem auf den knappen Vorsprung von Clinton und damit die Unsicherheit des Wahlausgangs hingewiesen.
2020 dagegen schien der Vorsprung der Demokraten weitaus komfortabler, und entsprechend eindeutiger fielen die Vorhersagen aus. Umso größer ist diesmal die Abweichung zu den realen Ergebnissen: Die zum Nachrichtensender ABC News gehörende Site FiveThirtyEight, die unter Leitung des bekannten Statistikers Nate Silver auf Basis zahlreicher Umfrageergebnisse eine „Meta-Prognose“ erstellt, erwartete als letzten Stand vor der Wahl einen Vorsprung Bidens von 8,4%. Demgegenüber beträgt der Vorsprung im tatsächlichen Wahlergebnis nur ca. 2,9% der Wählerstimmen. Ein Fehler also von 5,5% und damit außerhalb aller akzeptablen Grenzen. So gesehen also doch eher ein Meinungsforscher-Debakel, wie das Handelsblatt titelte, oder ein Fiasko, wie an dieser Stelle bereits konstatiert wurde mit der bangen Frage, was das für das Ansehen der Umfrageforschung insgesamt bedeute.
Wo liegt der Fehler?
Zugegeben, die Aufgabe der Pollster war schwer. Dazu trägt nicht nur das komplizierte amerikanische Wahlsystem bei, sondern auch die Einmaligkeit der Situation, nachdem Trump die Bürger vier Jahre lang polarisiert und politisiert hat. Der dadurch entstandene Sprung in der Wahlbeteiligung – auch Verlierer Trump hat deutlich mehr Stimmen erlangt als bei seinem Sieg 2016 - kann aber nur bedingt als Begründung dienen, da die Wählermobilisierung offensichtlich auf beiden Seiten mehr Menschen an die Urnen rief als in den Wahlen zuvor. Die Ursachen sind also an anderer Stelle zu suchen.
Als Erklärung scheinen sich hingegen vor allem zwei systematische Fehlerquellen anzubieten, die beide aus der Motivation der Befragten resultieren und in einem Fall zu einer verzerrten Stichprobe, im anderen Fall zu verzerrten Antworten innerhalb der realisierten Stichprobe führen:
- Antwortverweigerung von Trump-Anhängern, die Umfragen als Teil des Establishments bzw. der Fake-News sehen („versteckte Trump-Wähler“). Diese Fehlerquelle ist tatsächlich relativ neu, ist aber grundsätzlich bei Wahlkämpfen mit starken populistischen und medienkritischen Tendenzen zu erwarten, und stellt so vermehrt eine Herausforderung an die Demoskopen dar.
- Der Effekt der Sozialen Erwünschtheit in persönlichen oder telefonischen Interviews, der dazu führt, dass die geäußerten politischen Präferenzen und Wahlabsichten „sozialer“ oder weniger „extrem“ ausfallen als in der anonymen Abstimmungs-Situation. Dieser Fehler ist eigentlich altbekannt, hat aber auch durch das Aufkommen populistischer Strömungen ebenfalls an Brisanz gewonnen und in der besonders polarisierten Wahl 2020 eine womöglich besonders hohe Bedeutung erlangt. Damit könnte er nicht durch übliche, auf vergangenen Ergebnissen beruhende Korrekturfaktoren ausgeglichen worden sein. Der Effekt lässt sich zumindest in der Theorie messen, indem Erhebungsformen ohne soziale Interaktion – also Online-Befragungen oder Telefonbefragungen durch Computerstimmen – mit klassischen Face-to-Face- oder Telefoninterviews vergleichen werden. Da aber dann meist auch andere Stichprobenziehungen zugrunde liegen, und auch bei solchen nicht-persönlichen Formen soziale Erwünschtheitseffekte nicht ganz auszuschließen sind („wer weiß, wer hinterher meine Antworten sieht“), ist eine genaue Quantifizierung und damit Korrektur schwierig.
Daneben kommen die üblichen Effekte in Frage: Zu kleine Stichproben, schlechte Stichprobenziehungen, falsche Gewichtungen etc..
Natürlich tobt auch in den USA die Debatte um die richtige Stichprobe. Das Institut YouGov jedenfalls, das zur Wahlprognose Onlineerhebungen im eigenen Panel auf Basis einer MRP-Stichprobe nutzt („Multi-level Regression und Post-stratification“, also ein nicht auf einer Zufallsauswahl beruhende Stichprobe, sondern eine Quotenstichprobe, die ex post durch ein differenziertes Modell an die Population angepasst wird) und im mehrjährigen Prognosegüte-Vergleich von FiveThirtyEight ein durchaus gutes B-Rating (bei einer Spanne von A bis F) erreicht, lag trotz der vermutlich geringeren Sozialen-Erwünschtheitseffekte der Onlineerhebung noch etwas weiter vom wahren Ergebnis entfernt als der Schnitt der berücksichtigen Institute: YouGov schätzte den Vorsprung von Biden in seiner finalen Prognose auf 8,9% und prognostizierte nur 174 statt der nach derzeitigem Stand voraussichtlich 229 Wahlmänner für Trump.
Umgekehrt kämpfen Telefonumfragen in den USA ebenso wie bei in Deutschland mit hohen Verweigerungsraten. So berichtet der amerikanische Politikwissenschaftler Salvatore Babones von in den letzten 20 Jahren drastisch gesunkenen Teilnahmequoten und schließt daraus und aus Änderungen im Wählerverhalten:
Model error is here to stay. In fact, it's likely to get worse.
Nur „good for fun“?
Noch sind die Analysen zum Prognose-Debakel im „Mutterland der Demoskopie“ nicht abgeschlossen. Schon jetzt scheint aber klar, dass Wahlprognosen – und vielleicht die Meinungsforschung insgesamt - vor enormen Herausforderungen steht. Auch wer sich wie ich der finalen Aussage von Babones nicht anschließen mag, der behauptet
“Political polling is good fun, but it should be treated more as entertainment than as serious politics”,
erkennt, dass ein bloßes „weiter so“ nicht ausreicht. Zum Glück sind Wahlen auch immer der beste Kalibrierungstest für Umfragen, und können so zu einer weiteren Verbesserung der Methoden beitragen. Ob die dann alleine durch die Optimierung klassischer Erhebungsformen und Stichprobenverfahren erreichbar sind, oder eher durch Multi-Methodenansätze, die Kombination probabilistsicher mit nichtprobabilistischen Stichprobenansätzen oder auch die Kombination von Befragungsdaten mit Sentiment-Analysen aus dem Internet, Wahlbörsen oder anderen nicht befragungs-basierten Ansätzen, wird sich zeigen – und ist am Ende wieder eine empirische Frage, die wir spätestens 2024 beurteilen können.

Ihr Horst Müller-Peters
Horst Müller-Peters ist Professor für Betriebswirtschaftslehre, insbesondere Marketing, Marktforschung und Behavioral Economics an der Technischen Hochschule Köln. Zuvor war er Vorstandsvorsitzender der Marktforschungs- und Unternehmensberatungsunternehmens psychonomics AG. Er ist Mitgründer und Herausgeber der Branchenportale CONSULTING.de und marktforschung.de.
PS: Der Shift von Trump zu Biden im Verlauf der Auszählung – und damit das erst spät erkennbare „wahre“ Ergebnis – konnte nur dadurch zustande kommen, dass alle Stimmen und nicht nur die ersten 95% ausgezählt wurden, und dass die Art der Stimmenabgabe und damit deren Auszählungszeitpunkt hoch mit der politischen Präferenz korrelierten. Ein Lehrstück für alle Meinungsforscher bezüglich der Bedeutung hoher Ausschöpfungsquoten und der Chancen eines Multi-Mode-Ansatzes, indem den Befragten mehrere „Erhebungsformen“ zur Auswahl angeboten werden.
Kommentare (3)
Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.
Anmelden