Die selbstlernende Frage – neue Möglichkeiten in Online-Umfragen

Die Erstellung von Fragebögen gehört zum Handwerkszeug jedes quantitativ arbeitenden Markt- und Meinungsforschers. Skalen-, Reihenfolge-, Wording-Effekte und viele weitere Einflussfaktoren – mit all diesen Problemen und deren Lösungsmöglichkeiten kennt sich der Marktforscher aus. Aber das methodische Grundwissen allein kann nicht alle Herausforderungen der Fragebogengestaltung lösen.

Projekte sollen immer schneller umgesetzt, die Fragebögen dazu müssen unter hohem Zeitdruck erstellt werden. Dabei geht es oft um neue oder unbekannte Themen, bei denen sowohl die Kunden als auch Marktforscher wenig Vorwissen besitzen. Eine grundlegendere Frage ist dann: Welche Fragen soll man überhaupt stellen, welche Antwort-Items sind wichtig? Zusätzlich haben Kunden oft sehr umfangreiche Vorstellungen für einen Fragebogen, die schwer oder manchmal auch gar nicht umsetzbar sind, zum Beispiel Item-Listen mit über 40 Items.

Darüber hinaus macht die Vielfalt möglicher Zielgruppen die Fragebogengestaltung ebenfalls nicht einfacher: Umfragen unter Jugendlichen, Programmierern oder C-Level-Mitarbeitern erfordern jeweils einen anderen Sprachgebrauch, den der Marktforscher implementieren können muss. Im Weiteren konzentrieren wir uns auf einen zentralen Bestandteil von Fragebögen: Fragen mit Item-Listen. Im Prinzip lässt sich die Idee unserer selbstlernenden Frage aber für weitere Szenarien mit Auswahl-Entscheidungen anwenden.

Wie gehen wir mit diesen Herausforderungen bisher um?

Nun sind die genannten Schwierigkeiten nicht neu. Typische Wege, diese zu lösen, sind zum Beispiel qualitative Vorstudien, klassische Literaturrecherchen, explorative Vorstudien in Omnibus-Studien oder Pretests. Mit diesen Ansätzen lassen sich gute Fragen und Items generieren. Der zusätzliche Kosten- und Zeitaufwand ist allerdings enorm.

Üblicherweise versucht man in der Praxis dem entgegenzuwirken, indem man eine zusätzliche Antwortoption "Sonstiges (bitte angeben): ______" einbaut. Diese Angaben bleiben jedoch bis zum Ende der Studie in einer Art Black Box und werden meist erst danach kodiert. Darüber hinaus sind die Antworthäufigkeiten dieser Items auch nicht ohne weiteres mit vorgegebenen Antwortmöglichkeiten vergleichbar (Unterschiede zwischen gestützten und ungestützten Antworten [1]).

Die selbstlernende Frage als Lösung?

Nur eine Frage, die die Flexibilität einer offenen Frage mit den quantitativen Vorteilen einer geschlossenen Frage verbindet, kann eine optimale Lösung bieten. Fast noch wichtiger jedoch ist die Tatsache, dass dabei gleichzeitig die Sprache der Befragten widergespiegelt wird – ein Umstand, der in der Marktforschung viel zu kurz kommt. Die aktive Einbindung von Befragten bietet somit die Chance, unsere Fragebögen relevanter, lebensnaher und interessanter zu gestalten.

Wir haben bei FactWorks dazu einen Bayes'schen Algorithmus in eine klassische Mehrfachauswahl-Frage mit "Sonstiges"-Option eingebaut. Dieser bezieht die offenen Angaben bisheriger Befragter mit ein und lernt selbst, welche Antwortoptionen am wichtigsten sind.

Unseren Befragten zeigten wir eine Mehrfachauswahl-Frage mit zehn vordefinierten Items und drei Feldern "Sonstiges (bitte angeben)". Offene Antworten aus dieser "Sonstiges"-Kategorie wurden direkt dem Item-Pool hinzugefügt. Für den nächsten Befragten musste die Item-Anzahl also wieder auf zehn reduziert werden.

Jedem verfügbaren Item wurde dazu eine Wahrscheinlichkeitsverteilung zugewiesen (beta-Verteilung), wobei wir als Startwert für neue Items einen Mittelwert von 0,67 in dieser Verteilung gewählt haben. Vereinfacht ausgedrückt haben wir a priori eine Zustimmung zu den Items von 67 Prozent angenommen. Dieses Vorgehen sorgt dafür, dass neue Items etwas "Starthilfe" bekamen und relativ wahrscheinlich angezeigt wurden.

Aus den Wahrscheinlichkeitsverteilungen aller Items wurde dann jeweils ein Zufallswert gezogen und dem jeweils nächsten Befragten letztlich die zehn Items angezeigt, die den höchsten Wert aufwiesen.

Algorithmus: Wahrscheinlichkeit der Zustimmung (Bild: FactWorks)
Abbildung 1: Item-Auswahl auf Basis des Bayes'schen Algorithmus' (Bild: FactWorks)

Der Vorteil des Bayes‘schen Ansatzes liegt darin, dass die Antworten jedes einzelnen Befragten dazu verwendet werden, die Verteilungen zu aktualisieren. Der Algorithmus lernt also mit der Zeit und wählt in der Folge die häufig angekreuzten Items durch ihre höhere Wahrscheinlichkeit häufiger aus als die weniger häufig angekreuzten (vgl. Abbildung 1, durchgezogene Linien). Die Vorteile dieses Vorgehens sind vielfältig:
1.    Effizienzgewinn, wenn mehr Items verfügbar sind als angezeigt werden können: Sind zum Beispiel 40 Items vorhanden, im Fragebogen ist aber nur Platz für zehn, wäre es ineffizient, jedes Item randomisiert nur jedes 4. mal anzeigen zu lassen. Der Lern-Algorithmus hingegen zeigt verstärkt die wichtigeren Items an und sichert somit hohe Fallzahlen für diese Items. Diese wiederum sind die Basis für zuverlässige Ergebnisse.
2.    Der Algorithmus sorgt durch seinen wahrscheinlichkeitstheoretischen Ansatz aber auch dafür, dass relativ unwichtige Items immer noch eine gewisse Grundwahrscheinlichkeit haben, wieder angezeigt zu werden (vgl. Abbildung 1, gestrichelte Linien).
3.    Der Algorithmus ist in vielen Parametern anpassbar. Beispielsweise können die Lerngeschwindigkeit und Sensitivität (wie schnell werden unwichtige Items aussortiert) oder die Startwahrscheinlichkeit variiert werden. Für verschiedenste Fragestellungen lassen sich so maßgeschneiderte Lernmodelle erstellen.
4.    Die Einbindung tatsächlicher offener Antworten von Befragten sorgt für ein höheres Engagement in der Umfrage (s. Pilotprojekt).
5.    Eine weitere Möglichkeit ist, die Item-Entwicklung ganz in die Hände der Befragten zu geben. Eine offene Frage zu Beginn kann also in eine geschlossene Frage mit den bis zu einem bestimmten Punkt generierten Items überführt werden – inklusive Lernalgorithmus.
Natürlich kann dieser selbstlernende Fragetyp qualitative Studien und eine gewissenhafte Recherche nicht ersetzen. Jedoch lassen sich nach unseren Erfahrungen mit ihm viele Fragestellungen flexibler und auch kosten- und zeitschonender in Umfragen implementieren.

Ergebnisse aus unserem Pilotprojekt

Um die Funktionsweise und Handhabbarkeit unserer adaptiven Frage zu testen, haben wir im August 2015 eine Befragungsstudie mit 800 Befragten (repräsentative Auswahl innerhalb der US-Bevölkerung, 16+ Jahre) durchgeführt.

Als Testfrage wählten wir eine klassische Meinungsfrage: "What are the most important problems facing this country today?" (s. PEW [2], Gallup [3]). Die Befragten wurden zuvor in gleichen Teilen auf zwei verschiedene Versionen der Frage aufgeteilt, um den Einfluss zusätzlicher und gegebenenfalls anderer Items auf die Antwortverteilungen zu testen:
1.    Selbstlernender Fragetyp: Anzeige von zehn vorgegebenen Antwortmöglichkeiten + drei offene "Sonstiges"-Felder; Anzeige der Items dynamisch auf Basis des Bayes’schen Algorithmus‘
2.    Klassische Mehrfachauswahl: permanente Anzeige der zehn vorgegebenen Items + drei offene "Sonstiges"-Felder

Die zehn vorgegebenen Start-Items:

  • Economy in general
  • Unemployment
  • Federal budget deficit/Federal debt
  • Performance of government
  • Race relations/Racism
  • Immigration
  • Education
  • Healthcare
  • Terrorism
  • Poverty

Wie relevant sind die selbst generierten Items?

Von den zehn Items mit der höchsten Zustimmung wurden sechs von den Befragten selbst generiert:

Verteilung: Items von Befragten (Bild: FactWorks)
Abbildung 2: Zustimmung zu vorgegebenen bzw. Befragten-Items (Bild: FactWorks)

Was sich ebenfalls im Vergleich von vorgegebenen vs. Befragten-Items zeigt, ist, dass die Befragten-Items zum Teil detailliertere Varianten der vorgegebenen Items waren. So landet das Item "Illegal immigration" auf Platz 9, während das vorgegebene Item "Immigration" kaum Zustimmung fand. Dadurch eröffnet sich ein weiterer spannender Anwendungsfall: sind grobe Kategorien oder Themenbereiche einer neuen Frage bekannt, können diese als "Trigger" vorgegeben werden, während die Befragten die konkreten Spezifikationen dieser Kategorien dann selbst entwickeln können.

Ein weiteres interessantes Ergebnis zeigt sich schon vor der Analyse der Antworthäufigkeiten. In der selbstlernenden Frage haben insgesamt 86 Befragte (22 Prozent) mindestens ein neues Item vorgeschlagen. In der klassischen Mehrfachauswahl-Frage waren es hingegen nur 30 Befragte (8 Prozent). Auch die Gesamtzahl der vorgeschlagenen Items unterscheidet sich deutlich (157 vs. 49).
Da sich beide Fragen lediglich durch die angezeigten Items unterschieden haben, gehen wir davon aus, dass die Formulierung der Items selbst dieses höhere Engagement in der selbstlernenden Frage ausgelöst hat. Die vorgeschlagenen Items waren umgangssprachlicher, also lebensnaher, als die vordefinierten Items, was die Befragten wiederum dazu animiert hat, ebenfalls eigene Item-Vorschläge zu machen.

Selbstlernende Frage vs. klassische Mehrfachauswahl-Frage

In unserem Test konnte für die meisten der zehn vorgegebenen Items kein signifikanter Unterschied (p < 0,05) in der Zustimmung zwischen beiden Frageversionen gefunden werden (vgl. Abbildung 3: Ausnahmen sind mit einem * markiert).

Betragsmäßig deutliche Unterschiede zeigten sich allerdings bei den Items "Healthcare" (41 vs. 58 Prozent), "Education" (34 vs. 46 Prozent) und "Immigration" (25 vs. 39 Prozent). Dies ist ein Indiz dafür, dass die Befragten in der selbstlernenden Frage Konkretisierungen allgemeinerer Kategorien vorschlugen (hier also "High costs of healthcare"; "Costs of higher education", "Illegal immigration"), die dann deutlich höhere Zustimmungsraten erfuhren als die Ursprungsitems selbst.

Items: Selbstlernende Frage (Bild: FactWorks)
Abbildung 3: Vergleich selbstlernende Frage vs. klassische Mehrfachauswahl; Unterschiedliche Fallzahlen je Item: n=28 ("Immigration") bis n=354 ("Economy in general"). (Bild: FactWorks)

Die Ergebnisse der selbstlernenden Frage sind also durchaus vergleichbar mit klassischen Fragetypen – gleichzeitig sind sie aber wesentlich konkreter.

Die selbstlernende Frage im Feldmanagement

Eine Frage, die im Live-Modus einer Umfrage den Befragten selbst überlassen wird, klingt nach viel Kontrollaufwand (Korrektur von Rechtschreibfehlern, Herausfiltern offensichtlicher Falschantworten, Beleidigungen etc.). Insbesondere wenn die Befragung an Kundenlisten versandt wird, wären unangemessene oder gar beleidigende Items fatal. Wir haben daher ein mehrstufiges Sicherheitssystem eingeführt:
1.    Gängige Rechtschreibprüfung
2.    Eine Melde-Funktion: Items, die von einem anderen Befragten als unangemessen (z.B. Beleidigung) gemeldet werden, werden zunächst gesperrt, bis ein Projektmanager eine finale Entscheidung zu diesem Item trifft. In unserem Test-Projekt hat allerdings keiner der Befragten ein in irgendeiner Weise problematisches Item generiert.
3.    E-Mail-Benachrichtigung der Projekt-Manager: sobald ein neues Item kreiert wird, bekommt der Projekt-Manager eine E-Mail und kann so direkt entscheiden, ob das Item angemessen oder ein Duplikat eines bereits bestehenden Items ist. Es versteht sich von selbst, dass diese Entscheidung jeweils mit Vorsicht getroffen werden muss und nicht zur Manipulation der Ergebnisse (Sperren inhaltlich ungewünschter Items) missbraucht wird.
4.    Lernfähigkeit des Algorithmus: unter der Annahme, dass unangemessene Items bei den meisten Befragten keine Zustimmung finden, sorgt letztlich auch der Algorithmus selbst dafür, dass die Befragten derlei Items nicht mehr beziehungsweise nur sehr selten angezeigt bekommen.
Ein geringfügig höherer Aufwand im Feldmanagement im Vergleich zu klassischen Befragungen ist sicherlich einzuplanen – allerdings ist der Zeit- und Erkenntnisgewinn durch den Einsatz der Frage um ein Vielfaches höher. Darüber hinaus lässt sich der Algorithmus auch so anpassen, dass beispielsweise maximal 50 neue Items generiert werden. Der Mehraufwand im Feldmanagement lässt sich so weiter reduzieren.

Für welche Fragestellungen eignet sich die selbstlernende Frage?

Der von uns entwickelte Fragetyp eignet sich im Kontext einer klassischen „Item-Batterie“, in der es vor allem um deskriptive Analysen geht (Welches sind die wichtigsten X Produkte? Womit assoziieren Sie Marke X am stärksten? Was sind ihre stärksten Vorbehalte gegen Produkt X?) und man eine zuverlässige Auswertungsbasis für eben jene Top-10 oder Top-20 der Antworten benötigt.
Gleichwohl ergeben sich Einschränkungen in der Anwendbarkeit in zweierlei Hinsicht:
1.    Die Frage eignet sich nur beschränkt für den Einsatz in multivariaten Analysen, da jedes Item eine unterschiedliche Fallzahl aufweisen wird. Je nachdem, wie groß die Gesamtfallzahl der Studie ist und wie viele Zusatz-Items generiert wurden, sind multivariate Verfahren aber mit der entsprechenden Teilmenge aller Befragten natürlich durchführbar.
2.    Auch bei sehr heterogenen Antwortmöglichkeiten ist ein sinnvoller Einsatz genau zu prüfen. Auf die Frage nach der liebsten Kindheitserinnerung bekäme man bei hundert Befragten unter Umständen hundert verschiedene Antworten.

Fazit

Marktforscher müssen heutzutage mehr denn je schnell und flexibel Befragungen durchführen und auf Kundenwünsche reagieren. Langwierige Prozesse in der Fragebogengestaltung werden von den Kunden immer weniger akzeptiert – für ausführliche Vorstudien bleibt kaum noch Zeit (und Geld). Mit der selbstlernenden Frage gibt es die Möglichkeit, sich zum einen den veränderten Arbeitsprozessen anzupassen und gleichzeitig eine Frage zu schaffen, die aus unserer Sicht sowohl das Engagement der Befragten erhöht als auch zuverlässigere und genauere Ergebnisse liefert als klassische Mehrfachauswahl-Fragen.

Der Autor

Martin Degen, FactWorks
Martin Degen ist Consultant bei der FactWorks GmbH. Er leitet und bearbeitet vorwiegend internationale Kundenprojekte aus den Bereichen Advertising und Social Media. Sein Forschungsschwerpunkt liegt im Bereich Survey Methodology.

 

 

 


Literaturverzeichnis:

[1] Siehe z.B. Friborg & Rosenvinge, 2011; Tourangeau & Smith, 1996; Kiesler & Sproull, 1986; Schuman & Presser, 1979

[2] www.people-press.org/files/legacy-pdf/174.pdf


[3] www.gallup.com/poll/1675/most-important-problem.aspx

 

Diskutieren Sie mit!     

  1. Moritz Nüchtern am 04.07.2016
    Ein interessanter, aber nicht ganz neuer Ansatz - wir arbeiten bereits seit mehreren Jahren erfolgreich mit N//M.CORE. Dabei kommt ebenfalls eine sich ständig selbst anpassende Antwortenliste zum Einsatz (auch mit Bevorzugung der besten und der neuesten Antworten). Ich gehe mal davon aus, dass es sich dabei um einen Fall von Duplizität handelt...

    Aufgrund unserer Erfahrung mit derartigen "adaptiven" Fragen, setzen wir diese Methode gezielt dazu ein, die eine wichtigste Antwort auf eine Frage zu ermitteln, eben den Kern (CORE) einer Sache.

    Bei uns erhalten alle Befragten zunächst eine ganz offene Frage. So vermeiden wir auch eine Verzerrung der Antworten. Denn zum einen gibt bei geschlossenen Fragen nicht jede(r) gleich eine sonstige Antwort ein, wenn etwas fehlt. Zum anderen führt die Unterschiedlichkeit der zur Auswahl stehenden Vorgaben natürlich auch zu Unterschieden im Denk- und Antwortverhalten. Sie sind darauf ja schon zum Teil selbst eingegangen, wenn es um Antworten geht, die sich in unterschiedlicher Art auf ein gemeinsames Thema beziehen.

    Die Bewertung der Antworten folgt dann erst in einem zweiten Schritt. Dabei können natürlich auch Test-Vorgaben von Kundenseite miteinfließen.

    Zur Ermittlung der Top-20-Antworten sind solche Fragen unserer Erfahrung nach (aufgrund der geschilderten Verzerrungen) weniger geeignet, dafür sehr gut zur offenen Ermittlung eines - völlig ungestützten, aber dennoch quantifizierten - "Top of Mind" in der authentischen Sprache der Befragten. Damit ist N//M.CORE nicht nur eine elegante Verknüpfung von qualitativer und quantitativer Vorgehensweise, sondern bietet für ausgewählte Fragen einen sinnvollen Mehrwert.

    Freundliche Grüße
    Moritz Nüchtern

    NÜCHTERN // MARKTFORSCHUNG
  2. Stefan Althoff am 04.07.2016
    Ob nun neu oder nicht: Auf jeden Fall ein sehr interessanter Ansatz. Wobei man auch beachten sollte, dass eine Frage mit 10 Items zu anderen Ergebnissen führt als 10 Fragen mit jeweils einem Item.
    Und auch wenn in dem Artikel auf die Grenzen hingewiesen wird (was in der Marktforschung nicht so oft vorkommt), kann ich mir im Moment nur sehr schwer vorstellen, wie die Methode auf andere Fragentypen übertragen werden kann.

    Schöner Artikel!

    Stefan Althoff (The Boeing Company, Seattle)
  3. Martin Degen am 05.07.2016
    Hallo Herr Nüchtern,

    schön zu lesen, dass über die Thematik auch woanders nachgedacht wird. In Teilen Ihrer Argumentation stimme ich Ihnen zu, sehe die Vorteile/Nachteile beim Einsatz in ganz offenen Fragen allerdings differenziert.

    Der Vorteil des Einsatzes in offenen Fragen liegt tatsächlich in einer völlig freien Assoziation. Genau das kann aber auch ein Nachteil sein, und zwar in Bezug auf:
    • Aufwand im Feldmanagement: Ausführliche Antworten auf eine offene Frage müssen erst noch aufbereitet werden, um sie in eine brauchbare Item-Form und damit Abfrageform zu bringen. Das Problem wird natürlich kleiner, wenn die Frage so gestellt wird, dass z.B. nur 2-3 Wörter oder eine maximale Zeichenanzahl erlaubt sind. Dennoch erfordert das mehr Aufwand/Zeit.
    • Vorstrukturierung der Antworten: Es kann durchaus gewollt sein, durch die Frage/Items einen Stimulus zu setzen und weitere Antworten in diesem Kontext zu generieren, anstatt sehr heterogene freie Assoziationen zu sammeln. Aber das kommt eben ganz auf den Fragekontext an.
    • Heterogenität der Antworten: Diese ist in einer gänzlich offenen Frage sehr groß und hier wäre im Einzelfall zu prüfen, ob nicht qualitative Ansätze besser geeignet sind als eine algorithmische Quantifizierung der Antworten.

    Die Vorteile einer klassischen Item-Frage - abhängig vom Fragekontext - liegen u.a. in der:
    • Strukturierung: Die vorgegebenen Items strukturieren sowohl die Thematik der Antworten, als auch die Form (so z.B. keine langen Texte, sondern kurze, prägnante Aussagen).
    • Vermittlung von Breite/Umfang der Thematik: Der Einfluss der vorgegebenen Items lässt sich leicht verringern, indem man z.B. thematische Vielfalt in den vorgegebenen Items sicherstellt. Grundsätzlich stellt sich hier die Frage, ob die "Verzerrung" ungewollt und systematisch ist oder eher zufällig und vernachlässigbar (was für sich genommen ein weiteres spannendes Forschungsfeld ist). Es hat sich gezeigt, dass der Einfluss der vorgegebenen Items im Feldverlauf abnimmt, da jeder Befragte ein anderes Set an Items zu sehen bekommt. Einseitigen "Antwortverzerrungen" wird damit sehr gut entgegengewirkt.

    Martin Degen
    FactWorks GmbH

Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.

Anmelden

Weitere Highlights auf marktforschung.de