Applied Science Wenn weniger mehr ist - Was können Single-Item-Skalen für die Marktforschung leisten?

Komplexe Konstrukte wie Kundenzufriedenheit, Markenliebe und Werbevertrauen mit einer einzigen Frage verlässlich und valide messen? Der Traum vieler Markt- und Konsumentenforscher würde in Erfüllung gehen. Im Klassiker zur Gretchenfrage “Multi- oder Single-Item-Skalen?” von Diamantopoulos et al. werden anhand einer Simulationsstudie Vor- und Nachteile beider Ansätze kritisch diskutiert. Die Marketing-Professoren Fretschner und Lüdtke fassen die Highlights in Ihrem aktuellen Kolumnenbeitrag „Applied Science“ für Sie zusammen.

Kundenzufriedenheits-Befragung (Bild: picture alliance / PantherMedia | Andriy Popov)

Meistens werden für Themen wie die Untersuchung der Kundenzufriedenheit Multi-Item-Skalen verwendet. Doch wäre unter bestimmten Bedingungen eine Single-Item-Skala vielleicht genauso zielführend? (Bild: picture alliance / PantherMedia | Andriy Popov)

“Theoretische Tests und empirische Ergebnisse würden sich nicht verändern, wenn anstelle der [in der Marketingforschung; Anm. der Verfasser] allgegenwärtigen Multi-Item-Skalen gute Single-Item-Skalen verwendet würden”, so Bergkvist und Rossiter in Ihrem Beitrag 2007. Die Autoren des im Folgenden zusammengefassten Papers “Guidelines for choosing between multi-item and single-item scales for construct measurement” um Diamantopoulos et al. (2012) sahen das aus mehreren Gründen kritisch. Zwar würde der Administrationsaufwand sinken, mehr Platz für weitere, andere Fragen bleiben und womöglich würden die schlankeren Fragebogenbatterien auch die Rücklaufquoten steigern - aber um welchen Preis? Wie viel Validität, also Gültigkeit der Messung eines komplexen Konzepts, das bedeutendste der drei Gütekriterien, wäre man bereit, dafür zu bezahlen? Denn dass es die genannten Vorteile von Single-Item-Skalen for free gibt, konnte und wollte man nicht glauben. Entsprechend wurde die hier thematisierte Replikations- und Simulationsstudie angelegt, um herauszufinden, unter welchen Bedingungen Single-Item-Skalen genauso gut funktionieren können wie Multi-Item-Skalen.

Der Hintergrund

Der Klassischen Testtheorie (KTT) zufolge sollten Fragen und Statements zu einem komplexen, unbeobachtbaren Konstrukt wie Kundenzufriedenheit, Markenliebe oder Werbevertrauen zufällig aus einer Menge aller möglichen Indikatoren des Konstrukts gezogen werden. Die Verwendung mehrerer von einem Probanden zu beantwortenden Fragen und Statements (in der Marketing-Wissenschaft auch “Items” genannt), hilft die Fehler und Eigenheiten, die mit einzelnen Items einhergehen können, durch Mittelung auszugleichen, was zu einer erhöhten Zuverlässigkeit (Reliabilität) und Messgültigkeit (Validität) führt. In diesem Zusammenhang gilt, dass die in einer Skala verwendeten Items einen gemeinsamen Kern haben sollten (was die Reliabilität erhöht), aber auch jeweils einen einzigartigen Teil beitragen sollten, der von den anderen Items nicht erfasst wird (Churchill und Peter, 1984).

In der Praxis jedoch wird häufig übermäßig viel Wert auf das Erreichen hoher Reliabilität gelegt, was zu semantisch redundanten Items führt, die nicht nur die Validität der Messung beeinträchtigen, sondern vor allem auch Studienteilnehmer in den Wahnsinn treiben (“Die Frage hab’ ich doch schon dreimal beantwortet!”).

Vor diesem Hintergrund argumentieren die Befürworter der Single-Item-Skalen womöglich zurecht, dass es bei recht konkreten Konstrukten wie der “Einstellung gegenüber Marke XYZ” nicht notwendig ist, mehr als ein einziges Item zu verwenden.

Der methodische Zugang

Zunächst replizieren die Autoren um Diamantopoulos et al. die Studie von Bergkvist und Rossiter (2007), die anhand ihrer Ergebnisse argumentiert hatten, Single-Item-Skalen seien in vielen Fällen aufwendigeren und weniger sparsamen Multi-Item-Skalen überlegen bzw. stünden ihnen im Hinblick auf eine valide, gültige Messung in nichts nach. Dabei konzentrieren sie sich nicht nur auf die ursprünglich untersuchten Konstrukte, sondern ergänzen die Analyse auch um weitere Konstrukte. Anschließend wird eine große Simulationsstudie aufgesetzt, die den Einfluss verschiedener Skalen-Stellschrauben (z. B. Wie stark korrelieren die Items untereinander? Wie viele Items werden zur Messung verwendet) auf die Vorhersagegüte (die sog. “prädiktive” oder “prognostische” Validität) der Skala ermittelt.

Die Ergebnisse

  • Studie 1

Die Replikation der Ergebnisse von Bergkvist und Rossiter (2007) erfolgte anhand der drei Konstrukte “Einstellung gegenüber Marke XYZ”, “Einstellung gegenüber der Werbeanzeige zur Marke XYZ” und “Kaufabsicht der Marke XYZ”. Die Ergebnisse in Bezug auf das Konstrukt zur Einstellung gegenüber der Werbeanzeige zeigen, dass in drei der vier Produktkategorien alle Einzelitems eine signifikant niedrigere prädiktive Validität haben als die Gesamtskala, d. h. die Kaufabsicht schlechter erklären können. Für die Vorhersagekraft des Konstrukts zur Markeneinstellung sieht es ähnlich aus. Insgesamt zeigt sich eine hohe Variabilität in der Performance von Single-Item-Skalen zur Erklärung der Kaufabsicht.

Entsprechend schlussfolgern die Autoren aus Studie 1, dass die sinnvolle Anwendbarkeit von Single-Item-Skalen verschiedenen Bedingungen unterliegt, die in den folgenden Studien spezifiziert werden sollen.

  • Studie 2

Die zweite Studie behandelt die beiden Konstrukte hedonistische und utilitaristische Einstellung gegenüber Produkten. Inhaltlich misst die hedonistische Dimension Freude und Spaß beim Verwenden von Produkten und die utilitaristische die praktische Funktionalität. Als zu erklärendes Kriterium wird das mit 4 Items gemessene Konstrukt der Markensympathie (Holbrook und Batra, 1987) verwendet. Zur Datenerhebung wurden die drei Studienkonstrukte bei 100 Konsumenten abgefragt, nachdem diesen verschiedene Printanzeigen von Automobilen vorgelegt wurden. Die Ergebnisse zeigen, dass das Konstrukt der hedonistischen Produktnutzung besser über mehrere Items (z.B. “Das Produkt zu nutzen bringt mir Spaß” oder “Ich stelle es mir aufregend vor, das Produkt zu verwenden” etc.) als nur über ein einziges Item aus der Skala gemessen werden sollte, da die Korrelation mit der Markensympathie für die Gesamtskala systematisch höher ist als für einzelne Items. Lediglich eines von fünf Items der Skala liefert vergleichbare Ergebnisse wie die Gesamtskala. Bei Betrachtung der utilitaristischen Einstellung ergibt sich ein anderes Bild. Hier zeigt sich bei den meisten der einzelnen Items eine ähnlich gute prädiktive Validität der Markensympathie wie bei Verwendung der Gesamtskala.

Die Autoren schließen aus den Ergebnissen von Studie 2, dass die Performance von Single-Item-Skalen konstruktabhängig ist - ob sie auch abhängig vom Stimulus ist, soll in Studie 3 überprüft werden.

  • Studie 3

Die dritte Studie verwendet ein ähnliches Setting wie Studie 2. Es werden folglich wieder die bekannten Konstrukte hedonistische und utilitaristische Einstellung gegenüber Produkten sowie die Markensympathie als zu erklärendes Konstrukt bei 50 Konsumenten erhoben. Zunächst dient als Stimulus wieder eine Auswahl an Automarken, was zu ähnlichen, inkonsistenten Ergebnissen wie in Studie 2 führt. Um die Leistungsabhängigkeit von verschiedenen inhaltlichen Stimuli zu überprüfen, werden in der nächsten Erhebungsrunde bei 50 neuen Konsumente verschiedene Uhren- statt Automarken verwendet.

Auch hier zeigt sich in den Ergebnissen wieder ein unklares Bild: Die Leistungsfähigkeit von Single-Item-Skalen variiert beträchtlich, scheint also sowohl abhängig vom zu messenden Konstrukt als auch vom verwendeten Stimulus zu sein.

  • Studie 4

Vor dem Hintergrund der Ergebnisse von Studie 1 - 3 konzentriert sich die vierte Studie auf die Frage “Unter welchen Bedingungen funktionieren Single-Item-Skalen mindestens genauso gut wie Multi-Item-Skalen?”. Studie 4 nutzt eine Monte Carlo Simulation, mit der die prädiktive Validität eines unabhängigen Konstrukts in Bezug auf ein abhängiges Konstrukt untersucht wird. Dabei werden sieben verschiedene Bedingungen systematisch variiert, z. B. die Anzahl der verwendeten Items für die beiden Konstrukte, die Inter-Item-Korrelationen (d. h. die Höhe der Zusammenhänge zwischen den Items innerhalb eines Konstrukts), die Cross-Item-Korrelationen (d. h. die Höhe der Zusammenhänge zwischen den Items der beiden Konstrukte) und die Stichprobengröße.

Die Ergebnisse zeigen, dass die Multi-Item-Skala die Single-Item-Skala deutlich, in 59.9 Prozent der Fälle bei über 100.000 Simulationsrunden outperformt. Die Single-Item-Skala ist schneidet nur in 14.1 Prozent aller Simulationsläufe signifikant besser ab. In den übrigen Fällen (26.0 Prozent) gibt es keinen signifikanten Unterschied zwischen den beiden Spezifikationen.

Die Daumen- bzw. Entscheidungsregel

Abgeleitet aus den Simulationsergebnissen zeigt sich, dass die Verwendung von Single-Item-Skalen meist kontraindiziert ist bzw. mit Verlusten beim hohen Gut der Validität einhergeht. Dennoch konnten die Autoren Bedingungen identifizieren, unter denen der Einsatz von Single-Item-Skala keinen Qualitätsverlust mit sich bringt:

  • Bei einem Stichprobenumfang kleiner/gleich 50 liefern Single-Item-Skalen vergleichbare Ergebnisse wie die Gesamtskala. Folglich könnte die Verwendung von Single-Item-Skalen in Betracht gezogen werden, wenn die Stichprobengröße z. B. aufgrund von Budgetbeschränkungen, Schwierigkeiten bei der Rekrutierung von Probanden oder einer begrenzten Populationsgröße so klein ist.
  • Weiterhin scheinen einzelne Items eine relativ sichere Messmethode zu sein, wenn eher schwache Modelleffekte zu erwarten sind (Cross-Item-Korrelationen unter .30). Inhaltlich erwartet man in so einem Fall also, dass der zu erhebende Prädiktor (z. B. Vertrauen in die Werbebotschaft der Marke XYZ) das abhängige Konstrukt (z. B. Sympathie der Marke XYZ) nur in einem begrenzten Ausmaß alleine erklären kann.
  • Wenn die Inter-Item-Korrelationen über .80 oder die Reliabilitätswerte des Konstrukts höher als .90 sind - diese statistische Homogenität geht häufig mit einer semantischen und inhaltlichen Homogenität einher, sodass nur ein einzelnes Item der Gesamtskala ausreicht, um eine valide Messung zu erhalten.

Nachfolgende Abbildung fasst die zentralen Erkenntnisse mit konkreten Entscheidungshilfen abschließend zusammen:

Entscheidungsregel zur Nutzung von Single- und Multi-Iem-Skalen (Grafik: smart impact)

Insgesamt zeigt sich, dass Single-Item-Skalen durchaus mit Multi-Item-Skalen mithalten können - wenn das (markt-)forscherische Setting es hergibt. Das ist meist bei kleineren, explorativeren Ad-Hoc-Studien der Fall, wo es eher um die Generierung von Hypothesen und das Entdecken von grundlegenden Zusammenhängen geht.

Wovon die Autoren übrigens abschließend abraten, ist ein fauler Kompromiss aus zwei oder drei Items der Gesamtskala. Diese verspielen sowohl die statistisch-messtheoretischen Vorteile der Gesamtskala als auch die “Transaktionskosten-bezogenen” Vorteile der Single-Item-Skala.

“Stuck in the Middle”, sozusagen - Sie müssen sich also schon entscheiden! Wir hoffen, dass wir Sie dabei zumindest ein klein wenig unterstützen konnten.

Über Prof. Dr. Michael Fretschner & Prof. Dr. Jan-Paul Lüdtke

Prof. Dr. Michael Fretschner, smart impact (Bild: smart impact)
Prof. Dr. Michael Fretschner ist Co-Gründer der smart impact GmbH und Professor für Marketing & E-Commerce an der NORDAKADEMIE Hochschule der Wirtschaft.

Prof. Dr. Jan-Paul Lüdtke, smart impact GmbH
Prof. Dr. Jan-Paul Lüdtke ist Co-Gründer der smart impact GmbH sowie Professor und Studiengangsleiter für E-Commerce an der Fachhochschule Wedel.

Täglicher Newsletter der Insightsbranche

News +++ Jobs +++ Whitepaper +++ Webinare
Wir beliefern täglich mehr als 9.000 Abonnenten

 

Diskutieren Sie mit!     

Noch keine Kommentare zu diesem Artikel. Machen Sie gerne den Anfang!

Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.

Anmelden

Weitere Highlights auf marktforschung.de