Stefan Zins, GESIS Geht die Ära der Zufallsstichproben ihrem Ende entgegen?

Die Gewissheit, dass durch Zufallsstichproben repräsentative Ergebnisse gewonnen werden können, wird durch ein sich verkomplizierendes Umfrageklima infrage gestellt. Stefan Zins über die Zufallsstichprobe und ihre Zukunft.

Stefan Zins

Stefan Zins

Das Verwenden von Zufallsstichproben schafft die theoretische Grundlage, um Eigenschaften wie Unverzerrtheit und Effizienz von Schätzern zu bestimmen. Das Zusammenspiel eines überzeugenden theoretischen Konzepts und empirische Belege, wie falsche Prognosen zu den US Präsidentschaftswahlen von 1936 und 1948, halfen dabei nicht-zufällige Auswahlverfahren, wie willkürliche Stichproben aber auch Quotenstichproben, zurückzudrängen und Zufallsstichproben bis heute, zu einer Grundlage statistischer Inferenz zu machen.

Damit ist nicht gesagt, dass nicht-zufällige Auswahlverfahren keine Anwendung finden. So ist es beispielsweise bei experimentellen Studien durchaus akzeptiert, eine willkürliche Auswahl für die Teilnehmer einer Studie zu treffen. Schlussfolgerungen aus diesen Studien sind modellbasiert, das heißt sie stützen sich auf die Annahme, dass die experimentellen Effekte einheitlich für alle Einheiten der relevanten Bevölkerung sind. Dem entgegen benötigen Zufallsstichproben grundsätzlich keine weitreichenden Annahmen über die Zielpopulation, um Schlussfolgerungen über diese treffen zu können. Zufallsstichproben sind sozusagen eine robuste Methode, da sie ohne Annahmen valide Ergebnisse liefern können.

Die Gewissheit, dass durch Zufallsstichproben repräsentative Ergebnisse gewonnen werden können, wird jedoch durch ein sich verkomplizierendes Umfrageklima infrage gestellt. Response-Raten wichtiger Erhebungsmodi, wie Face-to-Face- oder Telefonbefragungen, sind seit Jahren rückläufig oder verweilen auf einem konstant niedrigen Niveau. Das Pew Research Center berichtet, dass ihre Responseraten bei Telefonbefragungen von 36 Prozent im Jahr 1997 auf neun Prozent in 2012 gefallen sind. Auch in Deutschland liegt die Teilnahmebereitschaft bei Telefonbefragungen heute oft bei nur etwa zehn Prozent. Selbst mit Zufallsstichproben aus den Einwohnermelderegistern mit Face-to-Face-Befragungen sind in Deutschland kaum Response-Raten von über 30 Prozent zu erreichen.

Gleichzeitig haben sich die Kosten für die Generierung von Umfragedaten durch selbst-administrierte webbasierte Befragungen stark verringert. Anbieter von Online-Access Panels pflegen einen Pool von befragungswilligen Personen, die sich durch Selbstselektion für die Teilnahme an dem Panel entschieden haben. So kann mit nur einem Bruchteil des Budgets einer Einwohnermelderegisterstichprobe ein Datensatz mit gleicher Fallzahl durch die Befragung eines Online-Access-Panels erzeugt werden.

Nun kann man sich die Frage stellen, in welche Umfrage habe ich mehr Vertrauen: In eine Umfrage per Zufallsstichprobe, mit einer Teilnehmerrate von 30 Prozent oder die Befragung eines Online-Access-Panels mit einem dreimal so hohen Stichprobenumfang?
Um dies beantworten zu können, müsste eine Vorstellung darüber bestehen, wie repräsentativ die Ergebnisse aus beiden Umfragen denn sind. Die Eigenschaft der Zufallsstichprobe, repräsentative Aussagen über die Zielpopulation zuzulassen, wird beeinträchtigt durch einen möglichen Non-Response-Bias. Bei der nicht-zufälligen Stichprobe besteht die Gefahr eines Sample Selection Bias durch die Selbstselektion der Panelisten oder durch den Auswahlalgorithmus des Panelanbieters, der die Panelisten zur Befragung einlädt. Steht der Untersuchungsgegenstand im Zusammenhang mit Responseverhalten und der Selbstselektion, werden beide Verfahren verzerrte Ergebnisse liefern. Der wesentlich höhere Stichprobenumfang der Nicht-Zufallsstichprobe garantiert nicht, dass eine Verzerrung, falls vorhanden, kleiner ist als bei der Zufallsstichprobe. Im Gegenteil, der höhere Stichprobenumfang suggeriert eine höhere Genauigkeit und beobachtete Effekte werden schneller als signifikant getestet. Dies kann leichter zu Fehlentscheidungen führen, wenn die gemessenen Effekte verzerrt sind.

Wenn beide Verfahren ein potentielles Bias-Problem haben, kann dies nicht bei der Auswertung der Daten berücksichtigt werden?

Für Zufallsstichproben existiert eine etablierte Methodik zur Behandlung von Nonresponse. Hierzu zählen die Verfahren der Imputation, das heißt das Ersetzen fehlender Beobachtungen im Datensatz durch geeignete Substitute sowie die Gewichtung. Die Gewichtung ist das relative Auf- und Abwerten von vorhandenen Daten, um den Ausfall von Beobachtungen zu kompensieren. Die Gewichtung findet weitreichende Anwendung bei der Behandlung von Unit-Non-Response. Ziel ist es, die relevanten Hilfsmerkmalen, wie zum Beispiel Alter, Geschlecht, Bildung, und Region der Stichprobenverteilung auf die Verteilung in der Zielpopulation anzupassen. Die Gewichtung findet aber auch bei Nicht-Zufallsstichproben Anwendung, um eben den Sample Selection-Bias auszugleichen. Für beide Verfahren führt eine Gewichtung zum Erfolg, wenn das Response-Verhalten bzw. die Selbstselektion im Zusammenhang mit den Hilfsmerkmalen stehen.

Wenn Gewichtung sowohl bei Zufalls- als auch Nicht-Zufallsstichproben angewendet werden kann, wo liegt da noch der Vorteil von Zufallsstichproben?

Eine Zufallsstichprobe hat den Vorteil, dass es Informationen über die Nicht-Respondenten gibt, also die Personen, die nicht erreicht werden konnten oder die Teilnahme verweigert haben. Bei einer Zufallsstichprobe ist bekannt, wer für die Stichprobe ausgewählt und wer befragt werden konnte. Informationen über die Nicht-Respondenten kann die Auswahlgrundlage, wie beispielsweise das Einwohnermelderegister, liefern. Bei Face-to-Face Befragungen werden auch sogenannte Paradaten gesammelt, die helfen, den Prozess des Rekrutierens zu untersuchen.

Bei Zufallsstichproben besteht also die Möglichkeit, Daten zu den Nicht-Respondenten zu sammeln und so den Ausfallprozess von Brutto- zu Nettostichprobe besser zu verstehen. Die so gewonnenen Erkenntnisse können genutzt werden, um Methoden wie Gewichtung und Imputation auf den Ausfallprozess abzustimmen. Vergleichbare Möglichkeiten, den Selektionsprozess bei Nicht-Zufallsstichprobe zu untersuchen, fehlen völlig. Für die Auftraggeber einer Studie bleibt die Komposition der Stichprobe meist eine Black-Box.

Haben Zufallsstichproben eine Zukunft als Auswahlmethode für Befragung?

Ja, in Kombination mit Face-to-Face-Befragungen mit Sicherheit. Entwicklungen im Bereich der Survey Methodik bieten Möglichkeiten, die Non-Response-Problematik weiter zu verringern; beispielsweise durch modernes Fieldwork Monitoring, was die Anwendung von Responsive Design fördert, um Nonresponse-Bias schon bei der Datenerhebung entgegen zu treten.

Die Qualität einer Nicht-Zufallsstichprobe kann nur im Vergleich zu einem Benchmark bestimmt werden, da ein eigenständiges Inferenzkonzept fehlt. Die Ursache, die zur Verdrängung der Nicht-Zufallsstichproben im letzten Jahrhundert führte, bleibt bestehen. Vielversprechend erscheinen aber Ansätze, die Daten aus Zufalls- und Nicht-Zufallsstichproben zu kombinieren, um so die Nachteile der jeweiligen Verfahren zu überwinden. Es muss somit nicht notwendigerweise zu einer gegenseitigen Verdrängung der Verfahren kommen.

Zufallsstichproben, die jedoch nur eine geringe Menge an Information über die Nicht-Respondenten sammeln können und mit vergleichsweise niedrigen Responseraten kämpfen, wie zum Beispiel Telefonbefragungen, werden jedoch durch günstige Online-Access Panel Befragungen oder Riversamples in Zukunft noch stärker unter Druck geraten. Gerade bei Befragungen mit einem engen Focus, wie zum Beispiel Wahlumfragen, haben Nicht-Zufallsstichproben die Möglichkeit, durch eine Optimierung von Rekrutierung und Gewichtung die Präzision von Prognosen stark zu steigern. Verfahren zur Minimierung von Prognosefehlern laufen jedoch Gefahr, Veränderungen nicht nachzuvollziehen, die durch exogene Faktoren hervorgerufen wurden. Zufallsstichproben sind hier wiederum im Vorteil, da sich ihre Inferenz nicht auf gelernte Zusammenhänge stützen muss.

Zum Autor:

Dr. Stefan Zins ist seit März 2013 wissenschaftlicher Mitarbeiter bei Gesis und seit 2016 Leiter des Teams Survey Statistik. In seiner Doktorarbeit beschäftigte er sich mit der Schätzung von Veränderungen über die Zeit mittels koordinierter Stichprobenziehungen. Seine Forschungsschwerpunkte sind Inferenz für endliche Populationen und statistische Modellierung. Von 2013 bis 2016 war er Leiter der Gremiums zu Stichprobenfrage des European Social Survey und ist seit 2016 Mitglied der Methoden Gruppe der European Value Study.

 

Diskutieren Sie mit!     

Noch keine Kommentare zu diesem Artikel. Machen Sie gerne den Anfang!

Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.

Anmelden

Weitere Highlights auf marktforschung.de