Näher an die Repräsentativität mit Online-Panels

Von Pete Cape, Global Knowledge Director bei SSI
Was ist Repräsentativität? Einfach formuliert: in einer Stichprobe ‘repräsentiert’ jede Person alle Menschen, die so sind wie diese Person selbst – und die für die Teilnahme an der Befragung nicht ausgewählt wurden. Wenn alle unterschiedlichen Typen der Bevölkerung mit ihren jeweiligen Anteilen vertreten sind, dann erreichen wir Repräsentativität.
Und wie kann das erreicht werden? Nun, das ist schon ein wenig schwieriger. Bei einer idealen Wahrscheinlichkeitsverteilung entsteht die Repräsentativität als Beiprodukt einer glücklichen Fügung aus dem Gesetz der großen Zahlen und dem Zentralen Grenzwertsatz – die Wahrscheinlichkeit für ein Ergebnis nah an der Wahrheit ist einfach recht hoch. Die Realität der Marktforschung sieht jedoch ein wenig anders aus als derartige theoretische Idealfälle. Wir müssen nämlich zwei spezifische Sachverhalte berücksichtigen: unvollständige Abdeckung und Antwortausfälle. Denn wir können nur jene Teilnehmer kontaktieren, die für uns erreichbar sind. Das Stichproben-Potential (die Liste der Personen, die man kontaktieren kann) ist oft unvollständig, ganz unabhängig von der angewandten Erhebungsmethode. Responseraten sind grundsätzlich niedrig und potentiell problematischer als die Vollständigkeit der Stichprobe. Marktforscher verlassen sich darauf, dass auch die Antwortausfälle der allgemeinen Zufallswahrscheinlichkeit entsprechen, und die Bemühungen um eine Erhöhung der Responserate – etwa durch Incentives oder andere Anreize – können zu einer Verfälschung der Zufallswahrscheinlichkeit bei den Responseraten führen – und sich somit negativ auf die Repräsentativität auswirken.
Welche Auswirkungen hat das alles nun auf Online-Panels? Der Erhebungsrahmen bei der Online-Forschung ist natürlich sehr klein. Die Größe des Panels ist jedoch nicht das tatsächliche Erhebungspotential. Vielmehr besteht das tatsächliche Erhebungspotential aus der Kombination der Quellen, die für den Aufbau des Panels verwendet wurden. Ein Panel (sowohl ein traditionelles als auch ein Online-Panel) ist nämlich ein zweistufiger Stichproben-Prozess, der aus der anfänglichen Rekrutierung für das Panel und dann der Auswahl der geeigneten Studienteilnehmer besteht. Die Problematik der Verfälschung der Ergebnisse durch die unvollständige Erfassung und den Antwortausfall stellt sich auch in der Rekrutierungsphase. Aus diesem Grund lautet die Frage 4 der ’25 Fragen von ESOMAR für den Kauf von Online-Stichproben‘: Woher kommen die Befragungsteilnehmer und wie wurden sie rekrutiert? Die Mischung der verwendeten Quellen bestimmt nämlich den Charakter des Panels und legt fest, wen die Panelisten tatsächlich repräsentieren. Die unvollständige Abdeckung ist dann sowohl eine Funktion der quellenspezifischen Erfassung als auch der Internetdurchdringung im jeweiligen Land. Es ist kein Zufall, dass die meisten Panel-Unternehmen angeben, eine Vielzahl von Quellen und etliche Rekrutierungsmechanismen zu verwenden.
Die Auswirkungen auf die Befragungsergebnisse können nachgewiesen werden. Die erste Qualitätsinitiative der Advertising Research Foundation (ARF), die ‘Foundations of Quality’, stellte in den USA abweichende Antworten auf die simple Frage “Haben Sie schon einmal geraucht ?” fest. Die Antworten aus 17 Online-Panels variierten zwischen 42% und 58%. Der Mittelwert (und der Median) lag bei 51%. Der in den USA anerkannte (und auf der vom Center of Disease Control and Prevention durchgeführten Befragung ‘National Health Interview’ basierender) Wert lag bei 42%. Es wäre absurd anzunehmen, dass dies eine Auswirkung der Internetdurchdringung und der unvollständigen Abdeckung ist. Die US-Bevölkerung mit geringer Internetnutzung (die insgesamt eher älter, weniger gebildet und ärmer ist) müsste dann für die Frage nach “jemals geraucht” einen Wert von nur 6% haben! Eine fehlerhafte Variable bedeutet natürlich nicht automatisch, dass alle Variablen ebenso fehlerhaft sind. Aber durch irgendetwas müssen Online-Panels ja für Raucher ein wenig attraktiver sein als für Nichtraucher.
Die Daten der ARF zeigen eindeutig, dass vom Durchschnitt ein besseres Ergebnis erzielt wird als von den einzelnen Quellen. Der Schlüssel zu einer größeren Abdeckung liegt somit in der Verwendung von mehreren Quellen. Das löst jedoch nicht das Problem mit den Responseraten oder den Rekrutierungsmechanismen, denn wir haben ja nur ein Produkt (die Befragungen), eine Investition (das Engagement der Panelisten) und ein Anreiz-System (die Incentives). Dieses kann jedoch durch die Ausweitung der Quellen und die Unterstützung durch Partner mit etablierten Kundenbeziehungen zu deren Mitgliedern gelöst werden. Der Belohnungsmechanismus bleibt im Zuständigkeitsbereich des Partners (wodurch die Loyalität ihm gegenüber gestärkt wird) und der Befragungsteilnehmer kann eine Vielzahl von Aktivitäten nutzen.
Wo ist dann also der Haken? Bei all diesen Betrachtungen haben wir die Notwendigkeit der “richtigen Anteile” vernachlässigt, die für die Repräsentativität entscheidend ist. Im alten Modell mussten wir uns darüber keine Gedanken machen – unsere Welt bestand aus etlichen Internetseiten, die wir für die Rekrutierung verwendeten und die Balance richtete sich nach dem – stabilen – Traffic dieser Seiten. Jetzt haben wir jedoch mehrere Quellen mit ihren eigenen Welten, die sich nur eventuell mit unserer ursprünglichen Welt überschneiden und alle unterschiedlich groß sind – möglicherweise sogar unabhängig von der tatsächlichen Größe des Panels des Partners. Der Versuch dies zu entflechten und auszubalancieren käme dem Lösen des Gordischen Knotens gleich.
Wir brauchen also einen anderen Ansatz, wie seinerzeit Alexander der Große. Wenn das ‚Problem’ mit den Quellen in ihrem inherenten Verfälschungspotential aufgrund ihrer jeweiligen Mitgliedern liegt, dann besteht die Lösung in der Klassifizierung und Ausbalancierung der Teilnehmer aus diesen Quellen anhand deren psychographischer Daten – und nicht anhand der eigentlichen Quelle. Es ist wenig überraschend, dass die ESOMAR in den ‘28 Fragen’ von Sample-Anbietern verlangt (in den Fragen 2 und 3), die verwendeten Sampling-Quellen und ihre entsprechenden Vermischungen zu beschreiben.
Eine auf psychographischen Daten basierende Stichprobe wird bei der Frage nach ‘jemals geraucht’ vielleicht nicht zu einem Ergebnis von 42% führen, jedoch wird sie immer wieder zu einem konstanten Ergebnis gelangen – und nicht zu einem ‚zwischen 42% und 58%’.
Es gibt zwei Lösungen für das Erfordernis der aktiven Ausbalancierung der Stichprobe anhand psychographischer Daten. Entweder müssen alle Rekrutierungs-Quellen ihre Mitglieder genau kategorisieren, oder diese Profilierung wird ‘in Echtzeit‘ durchgeführt. Da sich durch das Verlassen des traditionellen Marktforschung-Umfeldes das Spektrum der Teilnehmertypen erweitert, kann eine genaue Kategorisierung nicht immer durchgeführt werden (teilweise stellt sie sogar eine zusätzliche Belastung dar). Wir bei SSI glauben, dass es besser ist, die Studienteilnehmer nicht zu überlasten, sondern die Stichproben-Ausbalancierung ‚in Echtzeit‘ durchzuführen. Und dies bietet noch einen wichtigen zusätzlichen Vorteil: die Einladung zur Umfrageteilnahme wird zu einer allgemeinen Aufforderung, mit einem einfachen “Bitte nehmen Sie an dieser Umfrage teil”, und ist nicht mehr studienspezifisch. Studienspezifische Einladungen verfälschen nämlich die Stichprobe, da Menschen bereits selbst eine Vorauswahl treffen anhand ihrer persönlichen Interessen oder ihrer Qualifizierungswahrscheinlichkeit.
Sobald allgemeine Einladungen eingesetzt werden, ist der Einsatz eines Survey Routers unausweichlich. Die Zusammenstellung einer psychographisch ausbalancierten Stichprobe für jedes einzelne Projekt wäre eine massive Verschwendung von Zeit und Ressourcen. Da wir die Fragen zur psychographischen Ausbalancierung ohnehin stellen müssen, können wir diese Gelegenheit nutzen und eine Befragung auswählen, für die sich der potentielle Teilnehmer wahrscheinlich qualifizieren kann – und ihn dann gleich zu dieser Befragung weiterleiten. Die Anzahl und die Vielfalt der verfügbaren Umfragen verringern jegliche eventuelle Verfälschungen aufgrund dieser Zuordnungsmethode.
Zusammengefasst: Repräsentativität wird erreicht indem alle Typen von Menschen mit ihren richtigen Anteilen in einer Stichprobe repräsentiert sind. Die Steigerung der Anzahl der zum Aufbau eines Online-Panels verwendeten Quellen erhöht immer die Repräsentativität des entsprechenden Panels. In der Praxis erhöht die alleinige Anwendung dieses Ansatzes jedoch auch die Kosten und die Komplexität, ohne das Problem mit dem “Personentyp” zu lösen, welches aus dem aktuellen Modell resultiert (Teilnahme an der Umfrage als Gegenleistung für eine Belohnung). Die Ausweitung der Reichweite außerhalb von Panels löst das Problem mit dem “Personentyp” und erhöht die Repräsentativität (da noch mehr Quellen verfügbar sind); die psychographische Profilierung und Ausbalancierung ermöglicht dann die richtige Stichprobenzusammensetzung.
Kommentare (0)
Noch keine Kommentare zu diesem Artikel. Machen Sie gerne den Anfang!
Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.
Anmelden