Repräsentativität – zwischen Anspruch und Machbarkeit. Ein Blick in den Forschungsalltag

Carmen Borger, Alexandra Wachenfeld-Schell (LINK)

Von Carmen Borger, Senior Projektleiterin, und Alexandra Wachenfeld-Schell, Research Director, LINK Institut für Markt- und Sozialforschung

Im Studium haben wir mal gelernt: Ein bisschen repräsentativ gibt´s nicht – man kann ja auch nicht ein bisschen schwanger sein. In der Praxis zeigte sich, dass es nicht ganz so einfach ist. Das fängt schon damit an, dass der Begriff geradezu inflationär und als Synonym für hohe Qualität in den verschiedensten Zusammenhängen gebraucht wird. Im Folgenden soll Repräsentativität als das verstanden werden, was sich die meisten unserer Kunden wünschen, wenn sie einen repräsentativen Ansatz verlangen, nämlich Ergebnis- und Entscheidungssicherheit, also die Übertragbarkeit der Ergebnisse einer Stichprobe auf die Grundgesamtheit, mit einer zu akzeptierenden statistischen Fehlertoleranz selbstverständlich.

Aber spielt Repräsentativität eigentlich immer eine Rolle? Manchmal geht es in einer Forschungsfrage gar nicht um den Rückschluss der erhobenen Daten auf eine definierte Grundgesamtheit. Zum Beispiel in der Innovationsforschung oder für Produktbeurteilungen im frühen Entwicklungsstadium sind oft andere Schwerpunkte im Studiendesign zu setzen als das Streben nach Repräsentativität.

Wenn eine Forschungsfrage aber Repräsentativität verlangt, dann kommt man nicht umhin, sich mit den verschiedenen Stellschrauben zu beschäftigen, die Einfluss auf die Ergebnisqualität haben.

Dabei ist es in der Regel nicht ausreichend, mithilfe einer bloßen Erhöhung der Stichprobengröße mehr Ergebnissicherheit (also eine geringere Varianz der Ergebnisse) zu versprechen. Es kommt auch auf die Zusammensetzung und Ziehung der Stichprobe an. Das zeigt das Beispiel des viel zitierten Literary Digest Desasters: Im Jahre 1936 gelang es dem US-Magazin trotz einer enorm großen Stichprobe (rund 2,5 Millionen Probanden) nicht, den Ausgang der US-Präsidentschaftswahl zwischen Alfred Landon und Franklin D. Roosevelt korrekt vorherzusagen. Drei Fehler wurden gemacht: Erstens wurde die Stichprobe aus Verzeichnissen gezogen, in denen eher die republikanisch gesinnte Mittel- und Oberschicht vertreten war (Telefonverzeichnis, registrierte Autobesitzer, Abonnenten der Zeitschrift etc.). Zweitens hing die Teilnahmebereitschaft vom politischen Interesse und Aktivierungsgrad ab und das war bei Roosevelt-Gegnern höher. Drittens führte die schriftliche Methode dazu, dass eher Mittel- und Oberschicht antworteten als die unteren, demokratisch orientierten Sozialschichten. George Gallup gelang es dagegen, mit einer nur 50.000 Probanden umfassenden (Quoten-)Stichprobe den Sieg Roosevelts korrekt vorherzusagen. Es kommt also tatsächlich nicht primär auf die Größe an. Manchmal ist sogar das Gegenteil der Fall. In kleinen, homogenen Grundgesamtheiten kann  für bestimmte Fragestellungen auch mit einer geringeren Stichprobengröße gearbeitet werden – es gibt solche homogenen Grundgesamtheiten, zum Beispiel in der Pharmamarktforschung, in der ein Interview ohnehin oft sehr kostspielig ist. Freilich verlangen weniger homogene Grundgesamtheiten eine größere Stichprobe für eine akzeptable Ergebnissicherheit. Aber die Beispiele zeigen: Die große Kunst ist die richtige Stichprobenziehung, um systematische Verzerrungen so gering wie möglich zu halten. Sie lassen sich nämlich – im Gegensatz zum statistisch berechenbaren Stichprobenfehler – leider nicht mit einem größeren Stichprobenumfang reduzieren und sie sind tückisch, weil nicht immer auf den ersten Blick erkennbar.

Gerade holt uns das Dilemma von 1936 in der Form ein, als dass durch die Zunahme der Mobile Onlys und die sinkenden Ausschöpfungsraten von Festnetzinterviews wiederum die Gefahr besteht, ganze Bevölkerungsteile auszublenden. Dem lässt sich nur durch einen Dual Frame Ansatz entgegenwirken, der auch Mobilfunknummern in der Stichprobe berücksichtigt und damit auch hochmobilen, jungen, beruflich stark eingebundenen Menschen die Chance gibt, in die Stichprobe zu gelangen.


Bei Online-Umfragen in Panels stellt sich ein ähnliches Problem bei der Stichprobenbildung. Wird beispielsweise ein Panel durch die Selbstselektion der Teilnehmer gespeist, werden Heavy User oder Onlineshopper systematisch überrepräsentiert sein. Problematisch ist das deswegen, weil solche Merkmale – auch wenn beispielsweise die Internetnutzung im Nachhinein gewichtet wird – einen Einfluss auf Einstellungen, Vorlieben und Bewertungsmuster haben können. Und die lassen sich nicht nachträglich gewichten. Wird hingegen ein Online-Panel offline  im Rahmen von repräsentativen Studien tatsächlich unter allen Internetnutzern – also unter allen Elementen der Grundgesamtheit – aufgebaut, dann werden die systematischen Verzerrungen deutlich reduziert.

Aber systematische Verzerrungen entstehen nicht nur bei der Stichprobenziehung, sie können zum Beispiel auch durch systematische Teilnahmeverweigerungen oder Nichterreichbarkeit resultieren. Deshalb bildet neben der Stichprobengröße und -ziehung die Ausschöpfung die weitere elementare Stellschraube für die Güte einer Stichprobe und der daraus resultierenden Ergebnisse. Es gibt eine Vielzahl verschiedener Möglichkeiten, die Ausschöpfung zu steigern, zum Beispiel im Rahmen von CATI-Interviews eine Anrufverteilung mit Mehrfachkontakten und Zeitfensterrotationen, eine optimierte Terminkoordination oder spezielle Services wie eine jederzeit für die Probanden erreichbare Hotline im Falle von Unsicherheiten oder Rückfragen. Ein ansprechender, nicht zu langer Fragebogen trägt ebenfalls positiv zur Ausschöpfung bei. Aber viele dieser Maßnahmen sind mit Zeit und Aufwand verbunden. Natürlich kann man nun argumentieren, dass eine nachträgliche Gewichtung genügt. Zwei Anmerkungen dazu: Erstens muss die tatsächliche Verteilung der zu gewichtenden Merkmale in der Grundgesamtheit bekannt sein – das ist in manchen Fällen gar nicht so einfach. Zweitens muss man auf die Gewichtungsfaktoren achten. Wenn plötzlich ein Interview für drei steht, dann birgt das in der Konsequenz Potential für falsche Ableitungen. Es ist schlussendlich ein Balanceakt zwischen ausschöpfungssteigernden Maßnahmen und gegebenenfalls einer Feingewichtung, der je nach Forschungsfrage einen anderen Schwerpunkt setzt und zu einer anderen Handlungsempfehlung führt. Basis ist jedoch dennoch eine durchdachte Stichprobenziehung, daran sollte nicht gespart werden. Nur so lassen sich Ergebnisse erzielen, die so repräsentativ sind wie sie eben sein können. Denn sehen wir den Tatsachen ins Auge – 100%ige Repräsentativität gibt es in der Forschungsrealität nur selten. Eine solche absolute Sicherheit gibt es nur bei Schwangerschaften.

Veröffentlicht am: 15.10.2014

 

Kommentare (1)

  1. Vanessa Blume am 20.11.2014
    An die Autorinnen:

    Sie sprechen mir aus der Seele! Eine sehr gute und verständliche Darstellung des Themas.

    Theorie und Methodik ist sicher nicht alles, aber sie gehören auf jeden Fall zum Handwerkszeug eines guten Marktforschers. Ziel ist m.E., dass wir kontextabhängig einschätzen können, welche Effekte und Verzerrungen die Repräsentativität (im Sinne Ihrer Ausführungen) einer Studie eventuell einschränken, um dies dann ggf. (aus Kosten- oder Zeitgründen) bewusst und kontrolliert in Kauf zu nehmen.

    In diesem Sinne allseits weiterhin frohes Forschen!

Neuen Kommentar schreiben

Kommentare geben ausschließlich die Meinung ihrer Verfasser wieder. Die Redaktion behält sich vor, Kommentare nicht oder gekürzt zu veröffentlichen. Das gilt besonders für themenfremde, unsachliche oder herabwürdigende Kommentare sowie für versteckte Eigenwerbung.

Über marktforschung.de

Branchenwissen an zentraler Stelle bündeln und abrufbar machen – das ist das Hauptanliegen von marktforschung.de. Unser breites Informationsangebot rund um die Marktforschung richtet sich sowohl an Marktforschungsinstitute, Felddienstleister, Panelbetreiber und Herausgeber von Studien, Marktdaten sowie Marktanalysen als auch an deren Kunden aus Industrie, Handel und Dienstleistungsgewerbe.

facebook twitter google plus