Bernad Batinic, Universität Linz Repräsentativität: Stichprobenziehung interessiert doch niemanden!?

Bernad Batinic plädiert für einen umfassenden Qualitätsbegriff und eine umfassende Qualitätsdiskussion in der Marktforschung, welche die unterschiedlichen Aspekte möglicher Fehler von Befragungen offen diskutiert. Was nützt ein ausgefeiltes Stichprobenverfahren, wenn am Ende die Fragen nicht valide das Zielmerkmal wiederspiegeln? Und was bringt eine Befragung, in welcher die Ergebnisse durch Reihenfolgeeffekte der Fragen beeinflusst wurden?

Bernad Batinic, Universität Linz

Bernad Batinic, Universität Linz

Repräsentativität ist kein statistischer Fachbegriff, sondern beschreibt vielmehr ein spezifisches Verfahren der Stichprobenziehung auf Basis einer Zufallsauswahl zur Schätzung von Populationswerten. Oder man könnte auch sagen, es beschreibt die Annahme, dass eine per Zufall gezogene Stichprobe der Grundgesamtheit diese in allen relevanten Merkmalen wiederspiegelt. In der Praxis finden sich Studien auf Basis einer echten Zufallsauswahl selten bzw. die Zufallsauswahl ist im Hinblick des zu betreibenden Aufwands unsinnig oder sie ist gar nicht möglich, weil kein qualitativ hochwertiges Register mit allen Personen der Grundgesamtheit existiert, aus welchem man die Stichprobe ziehen könnte.

Man behilft sich nun damit lediglich auf bestimmte Merkmale der Population zu achten bzw. Teile der Grundgesamtheit als Irrelevant für die Fragestellung zu erklären (z.B. Personen ohne Telefonanschluss; Personen, die gerade im Krankenhaus sind usw.). Die Stichprobe soll letztendlich im Hinblick auf eben diese Merkmale eine ähnliche Verteilung wie die Grundgesamtheit aufweisen. Man hofft, dass die so gewonnenen Ergebnisse akkurat sind. In immer größerem Ausmaß verweigern aber die ausgewählten Personen die Teilnahme an der betreffenden Befragung oder sind erst gar nicht erreichbar. Ist dieser Ausfall zufällig, dann stellt dies kein gravierendes Problem dar, ist der Ausfall hingegen gerichtet, dann kann dies die Schätzung des Populationswerts stark beeinflussen. Durch eine Gewichtung der vorhandenen Daten lässt sich dies auch nur sehr begrenzt ausgleichen, insb. wenn die Gründe des Ausfalls nicht bekannt sind und in der Befragung nicht nach den für den Ausfall relevanten Merkmalen gefragt wurde. Dies gilt in Analogie auch für selbstselektierte Stichproben.

Hier ist zu befürchten, dass Personen mit bestimmten Einstellungen, Meinungen, Alter, Bildung oder anderen Merkmalen zum Schluss in der Stichprobe überrepräsentiert sind und es auch so zu einer schlechten Schätzung des Populationswerts kommt. Selbst bei einer nach allen Regeln der Kunst durchgeführten zufälligen Ziehung einer Stichprobe sind die Ergebnisse der Befragung immer nur Schätzer des wahren Wertes der Grundgesamtheit. Ein Vertrauensintervall bleibt bestehen, auch wenn dieses sich durch die Größe der Stichprobe verringert.   

An diesen Ausführungen erkennt man, dass es bei der Durchführung einer "repräsentativen Befragung" zu zahlreichen Problemen und Unschärfe kommen kann. Schön wäre es nun, wenn wir einen statistischen Wert hätten, welcher die Repräsentativität der Studie beschreiben würde, im Sinne "78 Prozent repräsentativ" oder "Repräsentativität 0,8". Einen derartigen Wert gibt es aber nicht (siehe aber auch: RISQ Project). In unserer Vorstellung sind die Ergebnisse einer Studie für die entsprechende Grundgesamtheit repräsentativ oder halt nicht repräsentativ.

Da es wohl in fast allen Studien der Markt- und Meinungsforschung zu Fehlern im Hinblick auf das Konstrukt "Repräsentativität" kommt, setzt man Korrekturmechanismen ein (z.B. Gewichtungen) oder bemüht sich aufrichtig, dem Ideal so nahe wie möglich zu kommen. In der Praxis und im Alltag der Markt- und Meinungsforscher werden die vom Ideal abweichenden Studien damit "repräsentativ". Streng genommen ist dies aber nichts anders als eine Konvention. Eine Übereinkunft der relevanten Akteure bzw. Unternehmen, dass man eben dieses Vorgehen bis zu bestimmten Grenzen toleriert oder nicht toleriert. Repräsentativität wird damit zu einem Gütesiegel, welches an nicht dem Ideal entsprechende Studien vergeben wird. In der Wissenschaft ist das Eingehen von Konventionen ebenfalls weit verbreitet und Alltag (z.B. Signifikanzniveau fünf Prozent).

An sich ist das Vorgehen der Praxis also nicht unbedingt verwerflich. Entscheidend ist es aber in Wissenschaft und Praxis, dass Transparenz hergestellt wird und andere Personen das gewählte Verfahren mit den Problemen, welche sich ergeben haben, nachvollziehen können. In der Marktforschung ist Transparenz aber scheinbar nicht sonderlich verbreitet. Absurd wird es, wenn Transparenz ersetzt wird durch einen "guten Namen" und/oder ganz viel Erfahrung und der Weg zum Ergebnis verheimlicht wird, indem man z.B. das eingesetzte Gewichtungsverfahren als Firmengeheimnis verkauft. 

In der aktuellen Diskussion wird der Allgemeinbevölkerung, der Presse, Politikern und vielen anderen Personen vorgeworfen, sie würden den Begriff "Repräsentativität" mit einem allgemeinen Gütesiegel zur jeweiligen Befragung gleichsetzen. Dieser Vorwurf ist nicht sonderlich fair. War man es doch selbst, der diesen Gruppen den Begriff zur Beschreibung der Qualität einer Studie angeboten hat. Warum sonst schmücken sich viele Ergebnisdarstellungen mit eben dem Verweis auf die Repräsentativität!? Damit ist der Begriff die einfache Antwort auf die zentrale Frage von Auftraggeber und Rezipienten einer Studie, nämlich: "Kann ich den Ergebnissen vertrauen?"; Repräsentativität ist im Praxisalltag das Synonym für ein "ja, können Sie" geworden. 

Und im Kern geht es doch nicht nur um die beste Form der Stichprobenziehung, sondern um die generelle Frage, was habe ich getan, dass man den Ergebnissen meiner Studie vertrauen kann!? Dass man Entscheidungen und Handeln verantwortungsvoll auf Basis der gefundenen Ergebnisse realisieren sollte und ich die Verallgemeinerung meiner Ergebnisse verantworten kann. Wo liegen die Grenzen meiner Studie, welche Unsicherheiten und Fehlerquellen trägt diese in sich? Und sind die von mir gefundenen Werte gute Schätzer für die Grundgesamtheit auf welche ich schließen will!? Die Form der Stichprobenziehung ist hier ein Teil der Antwort, aber auch nur ein Teil. Ebenfalls ist die Frage nach der Reliabilität, der Validität und der Objektivität der Studie bzw. der Fragen in der Studie zu stellen. 

Ich plädiere somit für einen umfassenden Qualitätsbegriff und eine umfassende Qualitätsdiskussion in der Marktforschung, welche die unterschiedlichen Aspekte möglicher Fehler von Befragungen offen diskutiert. Was nützt mir ein ausgefeiltes Stichprobenverfahren, wenn am Ende die Fragen nicht valide das Zielmerkmal wiederspiegeln? Was bringt mir eine Befragung, in welcher die Ergebnisse durch Reihenfolgeeffekte der Fragen beeinflusst wurden? Dass die Markt- und Meinungsforschung voll mit Fehlern und Unzulänglichkeiten ist und wir hier deutlich mehr Anstrengung investieren müssen, sollte allen Seiten klar sein. Man könnte sich beispielsweise auch einmal fragen, warum man so lange tolerierte, dass Ergebnisse von Befragungen ohne die Angabe des Vertrauensintervalls publiziert wurden (werden!)? Warum manche Unternehmen bei der Anwerbung von Teilnehmern das Befragungsthema offen nennen; man begünstigt doch damit Selbstselektion. Wie man auf die Idee kommen kann, komplexe Konstrukte mit 1-Item Fragen zu erfassen, anstatt valide und reliable Skalen hierfür zu entwickeln usw. usw.  

Sind nun Online-Befragungen repräsentativ oder nicht!? Oder besser gefragt, komme ich mit Hilfe von Online Befragungen zu qualitativ guten Ergebnissen, auf welche ich Handeln und Entscheidungen ausrichten kann? Wer hier eine pauschale Antwort wagt, verkennt auf das gröbste, dass es zahlreiche Varianten von Befragungen im Internet gibt und die betreffenden Unternehmen sich in ihrem Vorgehen stark voneinander unterscheiden. Das Internet bietet uns von der offline rekrutierten Online-Panel-Stichprobe bis hin zur selbstselektierten Befragung alle Möglichkeiten. In völlig unterschiedlicher Qualität und zu völlig unterschiedlichen Preisen. In manchen Online-Panels kann ich mich mehrfach anmelden und es findet kein geeignetes Überprüfungssystem statt, in anderen Panels muss ich hingegen meine Adress- und Kontodaten nennen. Manche Online-Befragungen rekrutieren ihre Teilnehmer auf Internetseiten, welche thematisch mit dem Befragungsthema in einer Wechselwirkung stehen, hier kann man den Ergebnissen der Studie misstrauen. Andere Online-Umfragen nutzen zahlreiche technische Möglichkeiten, um die Güte der Befragung zu erhöhen (z.B. Fragerotation, um Reihenfolgeeffekte zu minimieren). Die Antwort auf die Frage, ob den die Online Umfrage repräsentativ bzw. von hoher Güte ist oder nicht, fällt somit wie folgt aus: "es kommt darauf an".  

Als Psychologe sei mir noch ein kleines persönliches Schlusswort gestattet. Das Studium der Psychologie ist fast wie kein anderes Fach reich an Methoden und Statistik und trotzdem wird der Begriff "Repräsentativität" meist in den Vorlesungen und Seminaren gar nicht behandelt oder nur kurz gestreift. Betrachtet man wissenschaftliche psychologische Veröffentlichungen so stellt man fest, dass Daten auf Basis von repräsentativen Stichproben eher die Ausnahme sind. Warum dies so ist? Ganz einfach. Es gibt meist nichts langweiligeres, als die Schätzung von Populationswerten. Dies ist phänomenologische Forschung, sie beschreibt den Zustand an sich. Wie es zu diesem Zustand gekommen ist, wovon der Zustand abhängt und wie er sich wohl weiterentwickeln wird, bleibt meist im Dunkeln. Oder man reichert phänomenologische Forschung mit sehr viel Kaffeesudleserei, ganz viel persönliche Expertise und super viel Erfahrungshintergrund aus 30 bis 40 Jahren Berufserfahrung an und gibt bedeutende Erklärungen der Welt zum Besten. Ich weigere mich dies als wissenschaftlich zu bezeichnen und freue mich über Beispiele, wo derartiges zumindest "nützlich" ist. Tatsächlich inhaltlich weiter bringen uns theoriegeleitete, korrelative oder experimentelle Forschungsansätze, welche Zusammenhänge überprüfen und erklären; unser Wissen über Sachverhalte kontinuierlich erweitern. Studien die Dinge im Längsschnitt betrachten und neben den Selbstberichten auch Verhaltensdaten der Teilnehmer aufzeichnen. Gerade innovative Online-Firmen bzw. Online-Panelanbieter sind hier schon sehr weit.  

Zur Person:

Prof. Dr. Bernad Batinic ist seit dem Jahr 2007 Vorstand des Instituts für Pädagogik und Psychologie und Leiter der Abt. für Arbeits-, Organisations- und Medienpsychologie an der Universität Linz. Batinic studierte in Gießen Psychologie, promovierte und habilitierte sich an der Universität Erlangen-Nürnberg und war im Jahr 2003 Vertretungsprofessor an der Universität Marburg. Im Jahr 2015 lehnte er einen Ruf auf die W3-Professur für Psychologie an der Universität Trier, verbunden mit der Leitung eines Leibnitz-Zentrums ab und nahm ein Bleibeangebot seiner Heimatuniversität an.

Bernad Batinic gilt weltweit als einer der Begründer der internetbasierten Erhebung von Daten. Er führte Online Umfragen bereits im Usenet durch und realisierte die erste WWW-Umfrage im deutschsprachigen Raum. 1995 veröffentlichte er die erste Anleitung im Internet zur Durchführung von Online Befragungen. Er war Gründungsmitglied der DGOF; Mitorganisator der ersten und zahlreicher weiterer GOR´s. Batinic gegründet mehrere Unternehmen und war dort als Aufsichtsrat, Beirat und  Berater beschäftigt. So war er einer von drei Gründern der Globalpark AG (seit 2012 Questback), der tivian GmbH und der respondi AG. Bei der respondi AG ist er nach wie vor als Teilhaber und Vorsitzender des Aufsichtsrats tätig.

 

Diskutieren Sie mit!     

  1. Christian Pietryga am 10.12.2018
    Erstklassig!
    Einer der wenigen Beiträge der letzten Zeit, der umfassend und verständlich die typischen Probleme anspricht. Ich habe auch nicht den Eindruck, dass der Beitrag von spezifischen Interessen (stark) verzerrt ist. Und der Blick aus dem Elfenbeinturm bleibt uns hier auch erspart.
  2. Thomas Krüger am 10.12.2018
    Danke! Ich denke, wir müssen in der Diskussion weg von dem radikalen Schwarz-Weiß-Schema (Zufalls-Sample = Gut; Online = Böse). In der Praxis nutzt wir doch je nach Bedarf beides. Wichtig ist, Auftraggeber über die Vor- und Nachteile der alternativen Ansätze zu informieren. Und statt schablonenhaft immer einen Ansatz zu empfehlen, gilt es zu überlegen, wie -unter bestimmten Ressourcenbeschränkungen- ein für die Forschungsfrage hinreichend valides Ergebnis erzielt werden kann.
  3. mq86mq am 11.12.2018
    Das ist ja alles völlig richtig, aber der Gesetzgeber (bzw. für den Printbereich der Presserat) erzwingt bei Veröffentlichung eine binäre Angabe "repräsentativ" oder "nicht repräsentativ", ohne das irgendwie zu definieren.
  4. Rolf Kirchmair am 12.12.2018
    Seit Wochen werden wir bombardiert mit Stellungnahmen zum Thema Repräsentativität. Der Diskussionsbeitrag von Bernad Batinic integriert nun das Thema Repräsentativität in die allgemeine Qualitätsdiskussion der Marktforschung und zeigt in hervorragender Weise die Probleme auf, die viel zu selten in der Praxis beachtet werden. Solche kompetente Beiträge wünsche ich mir häufiger. Danke Herr Batinic!

Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.

Anmelden

Weitere Highlights auf marktforschung.de