Dr. Georg Wittenburg, Inspirient & Dr. Josef Hartmann, Kantar Public Genug ist genug! – Grenzerträge von zusätzlichen Daten

Kann ich eine Umfrage schon beenden, wenn ich die festgelegte Stichprobengröße noch gar nicht erreicht habe? Dies könnte massiv Kosten einsparen. Wie das gelingt ohne die Aussagekraft der Ergebnisse zu beeinträchtigen, erklären Dr. Georg Wittenburg von Inspirient und Dr. Josef Hartmann von Kantar Public.

(Bild:picture alliance / SvenSimon | Frank Hoermann/SVEN SIMON)

Die Frage nach der optimalen Stichprobengröße spielt eine wichtige Rolle in der Umfrageforschung und statistischen Datenanalyse. Häufig wird sie als ein vorab zu lösendes a-priori Problem betrachtet, bei dem Forscher/innen im Voraus die notwendige Stichprobengröße ermitteln, um die gesetzten Ziele der Umfrage zu erreichen. Als Rahmenbedingung neben der statistischen Theorie müssen Markt- und Meinungsforscher in der praktischen Umsetzung einer Befragung jedoch begrenzten Ressourcen und Budgets Rechnung tragen; unter anderem entstehen zusätzliche Kosten mit einer größeren Zahl von Befragungsteilnehmer/innen. In diesem Zusammenhang stellt sich die Frage, wann genau Umfragen in der Praxis die Datensammlung beenden können, um kosteneffizient Ressourcen zu sparen?

In diesem Artikel untersuchen wir diese Thematik und schlagen einen adaptiven Ansatz vor, bei dem die Datensammlung kontinuierlich überwacht und ausgewertet wird. Wir analysieren den Erkenntnisgewinn und die Informationssättigung, um zu bestimmen, wann eine Umfrage abgeschlossen werden kann, ohne die Aussagekraft der Ergebnisse zu beeinträchtigen. Dieser Ansatz kann dazu beitragen, die Anzahl der erforderlichen Befragungsteilnehmer/innen zu reduzieren und somit Kosten sowie die Belastung für Teilnehmende zu verringern.

Einleitung: Optimale Stichprobengröße in der Markt-, Meinungs- und Sozialforschung

Die Bestimmung der notwendigen Stichprobengröße stellt einen zentralen Aspekt in der Meinungsforschung dar. Üblicherweise erfolgt diese Festlegung im Vorfeld einer Umfrage anhand verschiedener Parameter wie erwarteter Effektstärke, angestrebtem Signifikanzniveau und erwünschter statistischer Power (Teststärke), errechnet durch eine Power-Analyse. Ziel einer solchen Analyse ist es, sicherzustellen, dass die auf der Fallzahl einer Umfrage basierenden Ergebnisse Schlussfolgerungen auf die Grundgesamtheit mit der angestrebten Präzision erlauben.

In diesem Beitrag schlagen wir vor, die Bestimmung der Stichprobengröße als ein adaptives Problem zu betrachten. Ergänzend zu dem Vorgehen, die (maximale) Stichprobengröße im Voraus festzulegen, überwachen wir während des laufenden Datenerhebungsprozesses kontinuierlich Effektgröße und Signifikanzmetriken. Unser Vorschlag besteht darin, die Datensammlung zu beenden, sobald diese Metriken insofern eine Sättigung anzeigen, als von zusätzlichen Interviews keine – oder nur noch geringfügige – Änderungen der Ergebnisse zu erwarten sind. Dieser Ansatz ermöglicht eine Anpassung der auf Basis der a-priori Power-Analyse gewählten Stichprobengröße und eröffnet somit die Möglichkeit, die Datenerhebung schon vor dem Erreichen dieser festgelegten Stichprobengröße zu beenden.

Abbildung 1: Vollautomatische Ableitung von Ergebnissen aus Umfragerohdaten am Beispiel der Inspirient-Plattform

Die Grundidee unseres Ansatzes fußt auf der Annahme, dass jede zusätzliche Befragungsperson in einem stichprobenbasierten Forschungsprozess einen abnehmenden Ertrag hinsichtlich der Erkenntnisse liefert. Das bedeutet, dass die ersten Befragungen in der Regel den größten Informationsgewinn bieten und der Informationszuwachs mit steigender Anzahl von Befragungen abnimmt. Dieses Phänomen lässt sich in mathematisch-ökonomischer Sicht als sinkender Grenzertrag zusätzlicher Umfragedaten deuten. Messen lässt sich der zusätzliche Beitrag effizient mit Hilfe einer vollständig automatisierten Auswertung der Umfragerohdaten (vgl. Abbildung 1), die es erlaubt, den Informationszuwachs pro (zusätzlich) erhobenem Fall zu messen.

Wesentliche Vorteile unseres Ansatzes liegen einerseits in der möglichen Kostenreduktion durch die Vermeidung weiterer Befragungen und andererseits in der Reduzierung der Belastung für die Population der Befragten. Dies ist besonders relevant, wenn die untersuchte Population begrenzt ist und jedes Element deshalb für die Teilnahme an vielen Umfragen ausgewählt wird, beispielsweise große Organisationen oder Unternehmen bei Unternehmensbefragungen. Weniger Teilnahmen bedeuten weniger Aufwand und weniger Belastung für die potenziellen Zielpersonen, was wiederum die grundsätzliche Bereitschaft zur Teilnahme an Umfragen erhöhen kann.

Power-Analyse als Status-Quo

Die Stichprobengröße ist entscheidend für die Gültigkeit und Aussagekraft von Umfrageergebnissen. Bei der Planung einer Umfrage müssen die Forscher verschiedene Faktoren berücksichtigen, darunter den gewählten statistischen Test und die damit verbundene Power-Analyse. Hier sind einige Schlüsselkonzepte:

  • Modell (Test): Die Forscher wählen einen statistischen Test basierend auf ihrer Forschungsfrage und der Art der Daten, die sie sammeln. Beispiele für solche Tests sind der t-Test für den Unterschied der Mittelwerte (t-Verteilung), der F-Test für den Unterschied der Varianzen (F-Verteilung) und der Chi-Quadrat-Test (χ²-Verteilung) zur Untersuchung von Zusammenhängen in Kontingenztabellen
  • Standardisierte Effektgröße: Dieses Konzept bezieht sich auf die Größe des Effekts, den Forscher in ihrer Studie erwarten, und die damit verbundene Variabilität. Eine standardisierte Effektgröße gibt an, wie stark der Effekt ist, indem sie den Unterschied zwischen dem hypothetischen Wert in der Alternativhypothese und dem Baseline-Wert in der Nullhypothese berücksichtigt. Es ist im Wesentlichen ein Maß dafür, "in welchem Maße das Phänomen existiert" (Cohen 1988: 4).
  • Stichprobengröße (n): Dies ist die Anzahl der Beobachtungen in einer Stichprobe. Die Stichprobengröße ist ein Schlüsselfaktor, der die statistische Power eines Tests beeinflusst. Eine größere Stichprobe führt ceteris paribus zu einer höheren Power.
  • Signifikanzniveau α: Das Signifikanzniveau, oft als Alpha (α) bezeichnet, repräsentiert das "Risiko, die Nullhypothese fälschlicherweise abzulehnen" (Cohen 1988: 4). Ein häufig verwendetes Signifikanzniveau ist 0,05, was darauf hinweist, dass Forscher bereit sind, ein 5%iges Risiko einzugehen, die Nullhypothese zu verwerfen, wenn sie tatsächlich wahr ist.
  • Power des Tests (1–ß): Die Power eines statistischen Tests ist die Wahrscheinlichkeit, dass er zur Ablehnung der Nullhypothese führt, wenn diese tatsächlich falsch ist. In anderen Worten, es ist die Wahrscheinlichkeit, einen wahren Effekt zu erkennen. Die Power des Tests hängt von der Stichprobengröße, der standardisierten Effektgröße und dem Signifikanzniveau ab.

Die a-priori-Berechnung der Stichprobengröße basiert auf einer Schätzung der Effektgröße, dem zugrunde gelegten Signifikanzniveau und der angestrebten statistischen Power. Ziel ist es, eine Stichprobengröße festzulegen, um mit einer angestrebten Präzision Hypothesen zu testen oder Schätzungen vorzunehmen.

Abbildung 2: Vollständigkeit: Anteil signifikanter Ergebnisse

Der adaptive Ansatz

Die im Folgenden vorgestellte adaptive Perspektive bietet eine alternative Herangehensweise: Statt im Voraus eine Stichprobengröße festzulegen, verfolgen wir während des laufenden Datenerhebungsprozesses die Konvergenz der Effektgröße und der Signifikanzmetriken, wobei Metriken insbesondere in Bezug auf die errechenbaren Ergebnisse, z.B. im Rahmen von interessierenden Kreuztabellenanalysen, zu sehen sind (vgl. Abbildung 2).

Das Ziel besteht darin, die Datenerhebung zu beenden, sobald diese Metriken einen Sättigungsgrad anzeigen, was darauf hindeutet, dass zusätzliche Befragungspersonen mit hoher Wahrscheinlichkeit keine veränderten Ergebnisse erwarten lassen. So stellt sich beispielsweise in der in Abbildung 3 gezeigten Auswertung eine Sättigung zum Ende der Umfrage bei 82 Prozent in den Kreuztabellen als signifikant ermittelten Zusammenhängen ein. Wesentliche Beobachtung in diesem Beispiel ist jedoch, dass bereits nach ca. 40 Prozent der Fälle die Metrik bis zum Wert von 76 Prozent konvergiert ist; die verbleibenden 60 Prozent der Fälle tragen lediglich weitere sechs Prozent signifikante Ergebnisse bei. Berücksichtigt man nur die Ebene der Gesamtstichprobe, dann liegt die Schlussfolgerung nahe, dass durchaus auf einige Fälle verzichtet werden könnte, ohne die Ergebnisse nennenswert zu beeinträchtigen.

Dieser adaptive Ansatz erfordert eine kontinuierliche Überwachung der Daten und die Fähigkeit, in Echtzeit auf Änderungen zu reagieren. Er ermöglicht Markt- und Meinungsforschern, flexibel zu sein und Ressourcen effizienter einzusetzen. Sofern das Ziel in differenzierten Analysen nach Teilgruppen besteht, müssen die Metriken natürlich den Forschungs- und Analysezielen entsprechend angepasst werden.

Abbildung 3: Vollständigkeit vs. Fallzahl

Überprüfung des adaptiven Ansatzes

Die Anwendbarkeit des hier vorgestellten adaptiven Ansatzes wurde anhand mehrerer frei verfügbarerer Datensätze überprüft. In diesem Artikel beschreiben wir einen hiervon im Detail; Analysen mit weiteren Datensätzen führten zu vergleichbaren Ergebnissen.

Erhobene Metriken

Die Überprüfung des adaptiven Ansatzes wurde mithilfe mehrerer Metriken durchgeführt, um so die Konvergenz gegenüber entdeckbaren Zusammenhängen und signifikanten Ergebnissen zu messen. Die folgenden drei Metriken wurden verwendet:

  1. Moderate oder stärkere, bias-korrigierte Cramér’s V-Assoziation als Prozentsatz der Gesamtanzahl von Kontingenztabellen
  2. Bias-korrigiertes Cramér’s V über alle Kontingenztabellen (für sowohl den Durchschnitt als auch die Standardabweichung)
  3. Signifikante Chi-Quadrat-Ergebnisse als Prozentsatz der Gesamtanzahl von Kontingenztabellen (mit sowohl p < 0,05 als auch p < 0,01)

Zweck der ersten beiden Metriken ist die Messung der Konvergenz gegenüber entdeckbaren Zusammenhänge für die gegebenen Daten; Zweck der dritten Metrik ist die Messung der Konvergenz gegenüber erreichbaren signifikanten Ergebnissen.

Datengrundlage

Als Datengrundlage für unsere Überprüfung verwenden wir eine Studie des Berkeley Institute for Govermental Studies (IGS), das vierteljährlich ein politisches Meinungsbild zu aktuellen Themen im US-Bundesstaat Kalifornien erhebt. Konkret verwenden wir die Rohdaten des vierten Quartals 2021. Dieser Datensatz umfasst eine breite Palette politischer Fragen und Meinungen.

Abbildung 4: Messungen anhand von Rohdaten vom Berkeley IGS Poll, 4. Quartal 2021

Messung

Anstatt die Umfrage bis zur ursprünglich geplanten Stichprobengröße fortzusetzen, beobachten wir die Konvergenz der Effektgrößen und Signifikanzmetriken (vgl. Abbildung 4). Die Ergebnisse zeigen, dass nach einer bestimmten Anzahl von Befragten die Effektgrößen stabil werden und die Signifikanzniveaus eine Sättigung erreichen. Insbesondere der Anteil mittlerer bis starker Zusammenhänge konvergiert bereits nach 20 Prozent der erhobenen Fälle. Dies spricht für die Annahme, dass, sofern nur die Gesamtbetrachtung interessiert, die Erhebung früher hätte beendet werden können, ohne die Ergebnisse wesentlich zu beeinträchtigen.

Zusammenfassung und Ausblick

Die etablierte Methode zur a-priori Berechnung der benötigten Stichprobengröße basiert auf Schätzungen von Effektgröße, angestrebtem Signifikanzniveau und gewünschter statistischer Power mithilfe von Power-Analysen. Dieses Vorgehen ermöglicht eine solide Planung, aber es birgt auch das Risiko, dass die geschätzte Stichprobengröße zu hoch ist. In solchen Fällen könnte die Datenerhebung effizienter gestaltet werden, indem sie vor Erreichen der geschätzten Stichprobengröße beendet wird.

Die Kombination von a-priori-Power-Analysen zur Schätzung der benötigten Stichprobengröße mit dem vorgestellten adaptiven Ansatz eröffnet die Möglichkeit eines flexibleren und effizienteren Forschungsdesigns. Statt starr an der ursprünglich geplanten Stichprobengröße festzuhalten, können Forscher die Datenerhebung anhand der tatsächlich festgestellten Konvergenz der Effektgröße und der Signifikanzmetriken anpassen.

Die Anwendung des adaptiven Ansatzes hat relevante Implikationen: Erstens kann der Ansatz dazu beitragen, die Anzahl der benötigten Befragungsteilnehmenden zu reduzieren. Dies ist besonders relevant, wenn Umfragen teuer sind oder wenn es schwierig ist, bestimmte Zielgruppen zu erreichen. Eine geringere Stichprobengröße führt zudem zu einer Verringerung der Belastung für die Zielpersonen. Dies kann die Bereitschaft zur Teilnahme an Umfragen erhöhen und die Qualität der Daten verbessern, da diejenigen, die teilnehmen, möglicherweise gewissenhafter antworten. Zweitens kann der adaptive Ansatz dazu beitragen, Ressourcen effizienter einzusetzen. Anstatt die Datenerhebung bis zur ursprünglich geplanten Stichprobengröße fortzusetzen, können die Forscher frühzeitig erkennen, wann ausreichend Daten gesammelt wurden, um zuverlässige Schlussfolgerungen zu ziehen. Dies kann Zeit und Geld sparen, wobei jedoch zu beachten ist, dass der adaptive Ansatz nicht in allen Situationen geeignet ist. Die Wirksamkeit hängt von der Natur der Forschungsfrage, der Stichprobe und den anderen oben genannten Faktoren ab. Es ist folglich ratsam, den Ansatz sorgfältig zu prüfen und gegebenenfalls mit traditionellen a-priori-Berechnungen zu kombinieren.

In Zukunft können weitere Entwicklungen den vorgestellten adaptiven Ansatz ergänzen und erweitern. Dies sind beispielsweise:

  • Analyse von Subgruppen: Der adaptive Ansatz kann weiterentwickelt werden, um die Effizienz der Datensammlung für spezifische Subgruppen zu optimieren. Dies ist insofern relevant, als Forscher in der Regel Interesse daran haben, Unterschiede oder Zusammenhänge innerhalb verschiedener Teilgruppen, Bevölkerungssegmente oder Zielgruppen genauer zu analysieren.
  • Zusammenhänge mit Merkmalen jenseits soziodemografischer Informationen: Bisher haben wir uns hauptsächlich auf soziodemografische Merkmale konzentriert. Zukünftige Arbeiten können den adaptiven Ansatz auf andere Arten von Merkmalen ausdehnen, wie zum Beispiel Verhaltensweisen, Einstellungen oder psychologische Faktoren. Dies ist notwendig, um die Anwendbarkeit des adaptiven Ansatzes auf eine breitere Palette von Forschungsfragen zu erweitern.
  • Verwendung anderer Metriken: Während wir in unseren Beispielen Metriken wie Cramér’s V und den Chi-Quadrat-Test verwendet haben, gibt es eine Vielzahl anderer Metriken und statistischer Verfahren, die in der Umfrageforschung eingesetzt werden. Zukünftige Arbeiten können untersuchen, wie der adaptive Ansatz für verschiedene Metriken angepasst werden kann und welche Vorteile dies bietet.

In einer Zeit, in der Daten- bzw. Ergebnisqualität und Ressourceneffizienz gleichermaßen von großer Bedeutung sind, kann die Integration adaptiver Ansätze in die Umfragepraxis dazu beitragen, fundierte Erkenntnisse zu gewinnen, während gleichzeitig die Belastung für die Befragten und die Kosten verringert werden. Der hier vorgestellte adaptive Ansatz kann helfen, den Forschungsprozess effizienter und ressourcenschonender zu gestalten, ohne die Qualität der Ergebnisse nennenswert zu verringern.

Literatur

Cohen, J. (1988): Statistical Power Analysis for the Behavioral Sciences, 2nd ed. Hillsdale, NJ: L. Erlbaum Associates.

 

Über die Personen

Dr. Georg Wittenburg ist Gründer und Geschäftsführer der Inspirient GmbH, die für Unternehmen die Wertschöpfung aus Daten mittels Künstlicher Intelligenz (KI) automatisiert. Er ist federführend bei der Entwicklung der hierbei eingesetzten Methoden, die durch Fusion von klassischer Statistik und Generativer KI verlässliche Ergebnisse in kürzester Zeit ans Licht bringen. Diese Technologie wurde zuletzt durch die Market Research Society als Best Data Solution 2023 prämiert. In der Zusammenarbeit... mehr

Dr. Josef Hartmann leitet bei Kantar Public den Bereich „Arbeit und berufliche Bildung“. Seine Arbeitsschwerpunkte sind Studien zu arbeitsmarkpolitischen Themen. Survey-methodisch beschäftigt er sich mit komplexen Stichproben- und Messverfahren, Nonresponse-Analysen und anspruchsvollen Gewichtungsverfahren. Aktuell arbeitet er intensiv an der Frage, wie zufallsbasiert erhobene mit nicht-zufallsbasiert erhobenen Befragungsdaten und mit Daten aus anderen Quellen (auch als „big data“ oder „organic... mehr

Diskutieren Sie mit!     

  1. Andreas Bruckert vor 3 Wochen
    Alter Wein in neuen Schläuchen?
    Wie aus der Quellenangabe ersichtlich, wurde dies schon vor über 30 Jahren so diskutiert und gehandhabt. Die Gründer/Inhaber Herr und Frau Ernst von Infratest/Burke weltweit, heute Kantar, haben dies erkannt und umgesetzt. Da damals die Qualität der Marktforschung sich noch an der Stichprobengröße und Signifikanzniveaus echter Random Studien orientierte, akzeptierten dies aber nur wenige Großkunden. Eingesetzt wurde dies daher eher bei den damals sehr populären, fast täglichen, Omnibussen, was dann in rollierenden Stichproben(größen) aufging.
    Mit den heutigen digitalen Möglichkeiten ist dieser Ansatz mit kurzen Vorlaufzeiten und transparent einsetzbar. Neben den Vorteilen der Kosten- und Zeiteinsparung kann man heute sicher auch noch die geringere Belastung der Ziegruppe durch weniger Interviews anführen.
    Win-Win Situation? Wie der Jurist sagen würde: Es kommt darauf an. Die Umsetzung ist das kritische Element. Wenn damit weiteren unseriösen, intransparenten und wettbewerbsschädlichen Akteuren eine Möglichkeit gegeben wird, seriöse Anbieter unwirtschaftlich erscheinen zu lassen, müsste man darauf in aller Härte reagieren. Das Instrumentarium von Richtlinien bis zum RDM haben die Verbände geschaffen.

Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.

Anmelden

Weitere Highlights auf marktforschung.de