Alles Interpretation? Externe Validität in Behavioral Economics

Von Prof. Dr. Christian Rietz, Universität zu Köln, und Dr. Britta Krahn, goals international
Bei der Sichtung der wissenschaftlichen wie auch der anwenderorientierten Literatur im Feld der Behavioral Economics bzw. Verhaltensökonomie stößt man häufiger auf die Frage, ob und inwieweit sich die zum größten Teil experimentellen Befunde tatsächlich auf das Verhalten in Marktsituationen übertragen lassen. Diese meistens eher einer intuitiven Skepsis geschuldeten Kritik soll in diesem Beitrag vor allem unter dem Aspekt der externen Validität vertiefend analysiert werden, die in Behavioral Economics trotz Verwendung eines genuin empirisch-experimentellen Paradigmas nur wenig Berücksichtigung gefunden hat(1). In Bezug auf die Markt- und Meinungsforschung ist dies vor allem deswegen unabdingbar, da die experimentellen, eigentlich der Grundlagenforschung zuzuordnenden Ergebnisse häufig ungeprüft in Thesen über das Verhalten und das „Funktionieren“ von Markteilnehmern (Verbraucher, Nutzer, Anbieter, Arbeitnehmer, Arbeitgeber, etc.) münden. Dies birgt insbesondere für Anwender, die der Deutungskompetenz der „forschenden Zunft“ vertrauen, die Gefahr, dass der tatsächliche wissenschaftliche Kenntnisstand nicht korrekt wiedergegeben wird und dies allzu leicht zu Entscheidungen auf der Basis von eigentlich nicht zulässigen Interpretationen führt(2).
Die empirische Forschung richtet sich in allen grundlagenorientierten und anwendungsbezogenen Disziplinen nach vier Gütekriterien(3), mit denen die Qualität eines korrekten Rückschlusses von der oder den Ursache(n) auf Wirkung(en) und dessen Übertragbarkeit bestimmt werden können:
- Interne Validität: Wie sicher kann ich mit meiner Aussage sein?
- Statistische Validität: Verwende ich die für die Fragestellung angemessenen Analysemethoden?
- Konstruktvalidität: Messe ich tatsächlich das, was ich messen möchte?
- Externe Validität: Sind meine Ergebnisse auf andere als die Untersuchungssituation übertragbar (=generalisierbar)?
Während die interne Validität im Rahmen von Laborexperimenten normalerweise vergleichsweise hoch ist und auch davon ausgegangen werden kann, dass die statistischen Auswertungen gängigen Standards folgen (und die statistische Validität somit ebenfalls hoch ist), stellen die Konstruktvalidität und die externe Validität die entscheidenden Kriterien in Hinblick auf die Frage der Generalisierbarkeit von experimentellen Befunden auf das Verhalten in realen Umwelt- und Marktbedingungen dar, das ja letztendlich durch verhaltensökonomische Experimente „erklärt“ oder „vorhergesagt“ werden soll(4). Gemeinsame Charakteristika für diese experimentellen Untersuchungen sind die Beobachtung von Entscheidungsverhalten in strategischen (Markt-) Spielen in kontrollierter Umgebung, die Teilnehmer werden in der Regel mit ökonomischen Anreizen motiviert, alle Spielregeln der Interaktion sind festgelegt und die Informationsbedingungen sind vorgegeben. Zur Veranschaulichung dienen die beiden folgenden prototypischen Beispiele(5) für verhaltensökonomische Studien:
Studie 1: Untersucht werden soll der Einfluss von verschiedenen Entlohnungssystemen auf das emotionale Erleben und die Arbeitszufriedenheit. Zur Beantwortung dieser Frage wird eine Studie mit N>400 Studierenden durchgeführt. Als unabhängige Variable werden zwei verschiedene Entlohnungssysteme eingesetzt: In der ersten Bedingung erhalten die Studierenden für innerhalb einer zwölfminütigen Lösungsphase im Team richtig beantwortete Fragen 30 Cent pro Frage und der Betrag wird am Ende durch die Anzahl der Teammitglieder geteilt („Team-Bedingung“). In der zweiten Bedingung erhält das Teammitglied mit den meisten richtigen Lösungen den Gesamtbetrag und die anderen Teammitglieder gehen leer aus („Gewinner-Verlierer-Bedingung“). Anschließend beantworten die Teilnehmer zahlreiche Fragen aus einer psychologischen Skala zu negativen und positiven Affekten sowie einige weitere allgemeinere Fragen. Das Ergebnis ergab, dass sich die Teilnehmer in der Team-Bedingung gut, die Verlierer der Gewinner-Verlierer-Bedingung schlecht, die Gewinner der Gewinner-Verlierer-Bedingung am besten fühlen. Aus diesen Befunden wird nun geschlossen, dass die Verlierer der zweiten Bedingung negative Emotionen zeigen, was dann wiederum mit negativem Verhalten am Arbeitsplatz korreliert ist.
Wie ist diese Schlussfolgerung nun unter dem Aspekt der Validität einzuordnen? Die Konstruktvalidität(6) kann an dieser Stelle aus Platzgründen nicht diskutiert werden. Die Betrachtung der externen Validität beinhaltet die Fragen, ob
- von der Stichprobe auf die Grundgesamtheit,
- von dem Untersuchungssetting auf andere Settings,
- von der verwendeten unabhängigen Variablen auf andere unabhängige Variablen und
- von der abhängigen Variablen auf andere abhängige Variablen
generalisiert werden kann. Konkreter heißt das für das dargestellte Beispiel:
- Kann von einer ad-hoc-Studierendenstichprobe auf Arbeitnehmer geschlossen werden?
- Kann von einem zwölfminütigen Laborexperiment auf den Alltag Berufstätiger geschlossen werden?
- Kann von den beiden konstruierten Entlohnungssystemen auf Entlohnungssysteme in Unternehmen geschlossen werden?
- Kann von den psychologischen Skalen auf tatsächliches Erleben und Verhalten am Arbeitsplatz geschlossen werden?
Mag die interne Validität auch hoch sein und entsprechenden Erkenntnisgewinn erbringen – im Hinblick auf die Generalisierbarkeit ist festzustellen, dass alle vier Fragen mit einem klaren „Nein“ zu beantworten sind. Oder andersherum formuliert: Die Studie weist durchaus prägnant nach, dass Studierende, die eine zwölfminütige Aufgabe in Team bearbeiten und unterschiedlich entlohnt werden, unterschiedliche Emotionen zeigen. Nicht mehr – aber auch nicht weniger. Die Frage, ob Belohnungssysteme Verhalten (generell oder am Arbeitsplatz) beeinflussen, wird nicht beantwortet, sondern erfordert weitere Forschungsaktivitäten.
Studie 2: In einer fMRT-Studie wird untersucht, welchen Effekt unterschiedliche Stimuli in Bezug auf eine Preisreduktion, also einen Rabatt haben. N=20 nach Alter und Geschlecht quotierte Probanden erleben zwei Untersuchungsbedingungen: (1) kein Rabatt auf einen geplanten Kauf, (2) Rabatt auf einen geplanten Verkauf. In einer kurzen informativen Videosequenz über ein neues Produkt zeigt sich nun, dass in der Rabattbedingung (2) das Belohnungszentrum aktiviert wird. Daraus wird dann von dem anwendungsinteressierten Rezipienten allzu leicht geschlussfolgert, dass ein Hinweis auf einen Rabatt den Verkauf des Produktes fördern kann.
So verlockend diese Schlussfolgerung aufgrund der objektiv erscheinenden Messung von Stoffwechselprozessen im Probandengehirn(7) auch erscheinen mag, neben der externen Validität ist bei dieser Studie auch die statistische Validität gefährdet, da hier – wie bei den meisten neuroökonomischen Untersuchungen – eine sehr kleine Stichprobe vorliegt. Bei Betrachtung der Anforderungen der externen Validität ergeben sich nach dem obigen Kriterienschema folgende Fragen:
- Kann von der vorliegenden Stichprobe auf die Grundgesamtheit aller möglichen Konsumenten des Produktes geschlossen werden?
- Kann von der Untersuchungsbedingung (fMRT) auf reale Kaufbedingungen geschlossen werden?
- Kann von der Videosequenz auf einen z. B. Werbefilm geschlossen werden?
- Kann von der Aktivierung des Belohnungszentrums auf einen tatsächlichen Kauf oder eine Kaufabsicht geschlossen werden?
Auch in diesem Beispiel müssen mindestens zwei der vorangegangenen Fragen bezüglich der Übertragbarkeit und der entsprechend korrekten Schlussfolgerungen mit „Nein“ beantwortet werden, da sowohl die Übertragbarkeit des Settings als auch der Schluss von der Aktivierung des Belohnungszentrums auf ein tatsächliches Verhalten nicht tragfähig sind.
Nun soll es hier nicht um eine Abwertung von experimentellen Untersuchungen gehen – im Gegenteil. Die Aktivitäten im Bereich der Behavioral Economics leisten wertvolle Beiträge zur Grundlagenforschung in der Ökonomie und insbesondere zur Etablierung einer ergänzenden Perspektive zu der traditionellen normativ-theoretischen Mikroökonomie, die rationales Verhalten a-priori unterstellt. Beide Paradigmen liefern richtige und wichtige Zugänge zur Lösung ökonomischer Fragestellungen. Sobald aber ein tatsächlicher Transfer von diesen experimentell gewonnenen Befunden auf das ökologisch valide Erleben und (Entscheidungs-)Verhalten von Individuen und Gruppen erfolgt, ergeben sich zwangsläufig deutliche Probleme. Besonders sichtbar wird dies bei den Fragen nach der Generalisierbarkeit der abhängigen Variablen: Als Befund von Studie 1 können negative Emotionen in dem experimentellen Setting nicht mit negativem Verhalten am Arbeitsplatz gleichgesetzt werden, in Studie 2 eine Aktivierung des Belohnungszentrums nicht mit einem Kauf bzw. einer Kaufabsicht.
Die Frage, ob denn in Bezug auf das Erleben und Verhalten in realen Settings nicht alles eine Frage der gekonnten Interpretation bzw. Schlussfolgerung ist, kann und muss also mit einem klaren „Nein“ beantwortet werden. Wenn Behavioral Economics aber noch genau diese Schritte wie die Übertragung der Laborexperimente auf klassische Feldexperimente und die Verknüpfung der experimentellen abhängigen Variablen mit tatsächlichen Verhalten im Feld leisten würde, stünde einer Übertragbarkeit in die Anwendung für Produktentwicklung und Marketing nichts im Wege. Solange dieser Schritt aber nicht geleistet wird, ist jeder Transfer auch noch so intern valider experimenteller Befunden eine Form des „Kaffeesatzlesens“.
Dies ist ganz bestimmt nicht im Sinne einer wissenschaftsdogmatischen Rhetorik zu verstehen, sondern soll vielmehr ein Plädoyer für sorgfältige und methodisch fundierte Interpretation und Einordnung von Fragestellungen und Befunden der Verhaltensforschung innerhalb des bestehenden Kriterienrahmens der empirischen Forschung sein. Die meisten seriösen Verhaltensökonomen, auch diejenigen mit neuroökonomischer Ausrichtung, sind sich – wie die grundlagenorientierten Forscher anderer empirischer Disziplinen auch – den engen Grenzen ihrer Untersuchungen sehr bewusst und interpretieren sie im Rahmen der oben aufgeführten Kriterien. Irreführend sind jedoch nicht einlösbare Nutzenversprechen auf der Basis von Interpretationen seitens „Sekundärverwertern“ zum Beispiel aus der Markt- und Konsumentenforschung(8). Hier wird allzu oft der fälschliche Eindruck erweckt, Ursachen und Vorgänge in unserem Verhalten nun besonders objektiv, weil experimentell belegt, erklären und für Marktforschungszwecke nutzbar machen zu können. Das Gegenteil ist der Fall: Interessante, vielversprechende experimentell gewonnene Befunde bedürfen erst recht weiterer Forschungsbemühungen in ökologisch validen Settings, um sie tatsächlich generalisierbar und damit auf solidem Interpretationsfundament für die Praxis nutzen zu können. Und genau in dieser Vorgehensweise liegt der eigentliche Gewinn für Forscher wie Anwender.
(1) Diese These wird von Heukelkom (2009) belegt. Vgl. hierzu z. B. Heukelkom, F. (2009). Origin and Interpretation auf Internal and External Validity in Economics. Working Paper 09-111. Nijmegen: Nijmegen Center for Ecomomics; Heukelkom, F. (2009). Kahneman and Tversky and the making of behavioral economics. Amsterdam: Thela Thesis.
(2) Diese Überlegungen lassen sich analog auf weitere aktuelle Themen wie z. B. Big Data-Themen übertragen.
(3) Cook, T. D. & Campbell, D. T. (1979). Quasi-experimentation: Design & analysis issues for field settings. Boston: Houghton Mifflin. Vgl. auch: Cook, T. D., Campbell, D. T. & Peracchio, L. (1990). Quasi experimentation. In M. Dunnette & L. Hough (Eds.), Handbook of industrial and organizational psychology (pp. 223-326). Chicago: Rand McNally.
(4) Vgl. auch Jiménez-Buedo, M. & Miller,M. M. (2010). Why a Trade-Off? The Relationship between the External and Internal Validity of Experiments. Theoria, 69, 301-321.
(5) Die beiden geschilderten Studien sind dahingehend als Prototypen zu verstehen, als dass sie eine Paraphrase mehrerer jeweils ähnlicher Studien darstellen. Auf Wunsch können die Autoren gerne Angaben zu ähnlichen Studien zur Verfügung stellen.
(6) Hier wäre z. B. zu überprüfen, ob die verwendeten psychologischen Testverfahren tatsächlich das Konstrukt, das gemessen werden soll, angemessen operationalisieren.
(7) Auch zu diesem Thema ist eigentlich außerhalb der Fachöffentlichkeit nur wenig bekannt. Vgl. dazu auch: Slaby, J. (2011). Perspektiven einer kritischen Philosophie der Neurowissenschaften. Deutsche Zeitschrift für Philosophie, 59(3), 375-390; Hasler, F. (2013). Neuromythologie: Eine Streitschrift gegen die Deutungsmacht der Hirnforschung. Bielefeld: transcript.
(8) Vgl. hierzu auch die kritischen Anmerkungen in Ottawa, M. & Rietz, C. (2014). Betriebliche Marktforschung. München: Oldenbourg.
Autoren:
Univ.-Prof. Dr. phil. Christian Rietz, Dipl.-Psych., leitet den Arbeitsbereich „Forschungsmethoden“ an der Humanwissenschaftlichen Fakultät der Universität zu Köln. Als langjähriger Geschäftsführer der GUX | Gesellschaft für User Experience mbh und Autor diverser Publikationen auch im Bereich Marktforschung ist er mit dem Spannungsfeld zwischen Grundlagenforschung und praktischen Ableitungen (leider) mehr als vertraut.
Dr. Britta Krahn, Dipl.-Psych., betreut als Geschäftsführerin der goals international gmbh seit vielen Jahren Forschungsprojekte im Bereich Markt- und Finanzpsychologie im Auftrag und in Kooperation mit Unternehmen und wissenschaftsnahen Organisationen und ist besonders mit Fragen des Transfers wissenschaftlicher Erkenntnisse in die Praxis befasst.
Kommentare (0)
Noch keine Kommentare zu diesem Artikel. Machen Sie gerne den Anfang!
Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.
Anmelden