Garbage in, garbage out – schnelle Marktforschung in Zeiten von Big Data
Von Andreas Woppmann, advise research
Vor gut acht Jahren war ich sehr erstaunt, als ich am Flughafen in Los Angeles nach dem Besuch einer Toilette von einem Touchpad freundlich aufgefordert wurde, meine Meinung über den Zustand der eben aufgesuchten Räumlichkeiten kundzutun. Angeboten wurden mir fünf Smileys mit unterschiedlichen Gesichtsausdrücken. Was damals noch neu und etwas befremdlich wirkte, ist mittlerweile zum Standard geworden. Es existieren kaum noch Apotheken, Baumärkte, Autohäuser oder Arztpraxen, die nicht an einem kontinuierlichen Stimmungsbild und der Zufriedenheit ihrer Kunden interessiert wären und diesen stets eine Auswahl diverser Smileys präsentieren. Auch wenn man die Diskussionen in der Marktforschungsbranche verfolgt, so scheinen Themen wie Echtzeit-Messungen, automatisierte Analysen, Ermittlung von Kundenmeinungen direkt am Touchpoint, kontinuierliche Trackings, automatisierte Auswertungen und Real-Time-Dashboards weiterhin stark von Interesse zu sein. Warum dieses Prinzip also nicht auch in andere Bereiche stärker einführen?
Als ehemaliger Statistiker ist mir der Umgang mit größeren Datenmengen und die Erstellung von Algorithmen hinsichtlich der Erkennung bestimmter Verhaltensmuster durchaus bekannt. Auch die Analyse von Online-Shop-Umsätzen und Website-Besucherströmen mittels Data Mining war und ist immer wieder ein wichtiger Bestandteil meiner täglichen Arbeit als Marktforscher. Es ist nicht so, dass ich die Auswertung von großen Datenmengen prinzipiell kritisch sehe oder nicht die Vorteile von standardisierten, programmierten Algorithmen schätzen würde. Dennoch sehe ich noch immer Herausforderungen, was den Nutzen und die Validität von Echtzeit-Ansätzen und sehr schnellen Projekten betrifft. Und das, obwohl wir schon vor einigen Jahren ein Full-Service-Institut gegründet haben, das sich auf schnelle Marktforschungsprojekte spezialisiert hat.
Nach wie vor stellt sich die Frage, wie gut diese Ansätze geeignet sind, aktuelle Fragestellungen in der Marktforschung heute oder auch in näherer Zukunft valide beantworten zu können.
Objektive vs. subjektive Datenquellen
Um dieser Frage auf den Grund zu gehen, sollte prinzipiell zwischen zwei Arten von Daten differenziert werden: objektive und subjektive Daten. Objektive Daten sind häufig prozessgenerierte Daten, die ein tatsächliches und klar definiertes Verhalten darstellen. Dabei geht es beispielsweise um den konkreten Kauf eines Produktes (egal ob offline oder online), die Mausbewegungen beim Besuch einer Website, den Kontakt zu einer Service-Hotline oder die Aufzeichnungen von Geodaten beim Einwählen in ein Handynetz. Da diese Form an generierten Daten meist keinen oder nur einen kleinen Interpretationsspielraum zulassen (Produkt gekauft vs. nicht gekauft, Website aufgerufen oder nicht), sind sie für Echtzeitmessungen und standardisierte Auswertungen hervorragend geeignet. Meist gehen diese Daten auch nicht mit einer Stichprobenziehung einher, sondern können aus den vollen Datenmassen einer Vollerhebung schöpfen (zum Beispiel Daten aller Onlineshop-Kunden eines Anbieters). Das hat den Vorteil, dass keine Schätzungen für Konfidenzintervalle oder den tatsächlichen Wert in der Grundgesamtheit durchgeführt werden müssen.
Doch auch hier steckt der Teufel im Detail und es können systembedingte Fehler in der Aufzeichnung entstehen (zum Beispiel, dass aus technischen Gründen doch nur bestimmte Teilprozesse aufgezeichnet werden können oder falsche Zuordnungen innerhalb der Datenquellen auftreten). Dennoch können diese objektiven Daten sehr gut als "harte" Fakten betrachtet werden, die nicht bezüglich ihrer Gütekriterien (Objektivität, Reliabilität, Validität) hinterfragt werden müssen. Dahingegen sind subjektive Daten stets im Kontext einer persönlichen Einstellung, eines Gefühls oder einer Einschätzung zu betrachten (ganz abgesehen von möglichen Verzerrungen wie durch soziale Erwünschtheit, Interviewer-Effekte, Verständnisschwierigkeiten, etc.).
So ist die Abfrage der Kaufbereitschaft für ein neues Produkt oder Konzept definitiv nicht mit einem echten Kaufakt wie beispielsweise in einem Online-Shop zu vergleichen. Während für den einen Probanden ein ausführlich abgewogenes "kaufe ich wahrscheinlich" schon ein großes Zugeständnis ist, kann für den Anderen ein "kaufe ich mit Sicherheit" ein deutlich geringeres Commitment bedeuten. Da wir es in der klassischen, umfragebasierten Marktforschung fast ausschließlich mit subjektiven Daten (zum Beispiel Kaufbereitschaft, Relevanz, Interesse, Zufriedenheit) zu tun haben, muss auch stets die Validität der erhobenen Daten erneut hinterfragt werden. Und dies muss in der Datenbereinigung von Studie zu Studie unterschiedlich überprüft und analysiert werden.
Zusammenfassend kann man sagen, dass sich objektive Daten prinzipiell besser für Big-Data-Ansätze und Data Mining eignen, da es in erster Linie um die Analyse bestehender konkreter Ereignisse geht, die mit einem einmalig definierten Algorithmus sowohl für das Qualitätsmanagement wie auch die Auswertung standardisiert ausgewertet werden können.
Subjektive Daten sind dagegen schwieriger mittels eines immer gleichbleibenden Ansatzes in Echtzeit auszuwerten, da sowohl in der Erhebung als auch bei der Auswertung viel stärker eine Kontrolle und Bereinigung der Daten durchgeführt werden muss und ein Algorithmus für jedes Projekt iterativ angepasst werden müsste.
Ungeachtet dieser grundlegenden Diskussion ist der Druck in den vergangenen Jahren auf Kundenseite bezüglich schnellerer Ergebnisse zunehmend gewachsen (und das wird er auch gerade aufgrund der Diskussionen um Echtzeit-Erhebungen weiterhin tun). Das mögen viele Marktforscher schade finden, aber es ist zu bezweifeln, dass sich dieses Rad zurück drehen lässt und es in Zukunft wieder mehr Zeit (und Geld) für Qualitätssicherung geben wird. Wie also mit diesen instabilen Daten in der Praxis umgehen, wenn alles schneller und trotzdem mit vergleichbarer Qualität gehen soll?
Schnelle Marktforschung – viele Befragte in immer kürzerer Zeit?
Die Diskussion in den vergangenen Jahren hinsichtlich schnellerer, umfragebasierter Marktforschung drehte sich oft darum, wie viele Probanden in wie kurzer Zeit erreicht werden können. Es geht also vor allem darum, die Feldphase zu reduzieren, idealerweise ohne dabei den Qualitätsanspruch (wie zum Beispiel Repräsentativität) zu verlieren. Tatsächlich hat uns der Einsatz von computergestützten Telefoninterviews, Online-Befragungen und mobilen Endgeräten ermöglicht, eine beinahe beliebig große Stichprobe innerhalb kürzester Zeit zu erreichen.
Dabei wird je nach persönlicher Meinung beziehungsweise nach der am meisten eingesetzten Methode innerhalb eines Institutes darüber gestritten, ob denn jetzt Online-Interviews überhaupt repräsentativ sein können oder dies nur für CATI-Ansätze gilt. Eine Diskussion, die vor dem Hintergrund der mittlerweile sehr geringen Response-Raten am Telefon wahrscheinlich nur für beide Verfahren mit einem nein beantwortet werden kann. Zudem dürfte zwar die Generierung einer große Stichprobe von Befragten innerhalb kürzester Zeit in Zeiten sozialer Medien kein Problem mehr darstellen, aber auch wenn beispielsweise 30.000 Interviews leicht innerhalb weniger Stunden auf Facebook generiert werden können, so dürfte doch klar sein, dass dieses Sample durchaus eine gewisse Verzerrung mit sich bringt, auch wenn es entsprechend quotiert wird.
Automatische Auswertung in Echtzeit und Datenbereinigung
Mittlerweile bieten fast alle Fragebogensoftware-Tools eine Echtzeit-Auswertung der einlaufenden Befragungsdaten an. So ist es relativ einfach möglich, verschiedene Arten von Diagrammen auszuwählen, Beschriftungen einzufügen und Kreuztabellen zu erstellen um diese definierten Grafiken dann als PowerPoint-Report zu exportieren. Dadurch kann theoretisch eine Menge Zeit und Arbeit erspart werden, da die Daten nicht mehr extra verchartet werden müssen und der finale Report innerhalb kürzester Zeit erstellt ist. Was sich in der Theorie sehr interessant anhört, lässt sich nur bedingt in der Praxis umsetzen und scheitert vor allem an der fehlenden Validität von ungefilterten Rohdaten.
Der verstärkte Einsatz von nicht-persönlichen Interviews (online, mobil) und die generelle Abnahme der Bereitschaft an Interviews teilzunehmen, führte in den vergangenen Jahren leider zu einer kontinuierlichen Verschlechterung der Datenqualität. Die noch zu erreichenden Probanden werden selektiver (dies gilt auch für telefonische Interviews) und die Antwortqualität vor allem bei längeren Fragebögen (und hier reden wir von 15 bis 20 Minuten Befragungszeit, nicht den früher mal möglichen 45 Minuten im Studio!) immer schlechter. Als Resultat werden immer öfter wenig differenzierende Ergebnisse ermittelt.
Mittlerweile ist es zumindest bei einigen Instituten Standard, deutlich mehr Interviews pro Studie durchzuführen als beauftragt um die Datenqualität sichern zu können, auch wenn dieser Mehrkostenaufwand vom Kunden nicht immer mitgetragen wird. Zwar gibt es bereits einfache Maßnahmen wie beispielsweise deutlich verkürzte Befragungszeiten oder kontrollierende Aufmerksamkeitsfragen ("Klicken Sie bitte die fünf an!"), die bereits helfen, Speeder und Cheater zu entfernen. Die Erfahrung hat jedoch gezeigt, dass diese Art der standardisierten Datenbereinigung nur für einen Bruchteil der qualitätsbedingt auszuschließenden Befragten wirklich sinnvoll greift. Viel wichtiger ist es, Personen mit inkonsistenten Antwortverhalten zu ermitteln und von der jeweiligen Befragung zu entfernen ohne dabei die jeweiligen Quoten zu verletzen. Ein Prozess der mittlerweile mehr Zeit einnimmt als die eigentliche Auswertung und Erstellung des Tabellenbandes an sich und der – gerade bei AdHoc-Projekten – nicht einfach zu standardisieren ist.
Das Fehlen dieses komplexen Qualitätsmanagements innerhalb eines Echtzeit-Projektes macht die erzielten Ergebnisse von subjektiven Daten deswegen sehr ungenau und Handlungsempfehlungen, die darauf beruhen, eher zu einem Glücksspiel. Sehr starke Effekte und Präferenzen werden sich zwar vielleicht noch abzeichnen, aber schon mittlere Effekte, die in der Marktforschung ja durchaus öfters auftreten, können durch solche Unwägbarkeiten verwässert oder sogar falsch interpretiert werden. Daher ist die Überprüfung der erhobenen Daten während und nach dem Feld enorm wichtig und zentral. Eine Verkürzung dieses Prozesses ist trotz eines knapperen Zeitrahmens nicht sinnvoll.
Quick without dirty?
Wie kann man aber dennoch gute Qualität in kurzer Zeit liefern, wenn man nicht auf ungefilterte Datensätze zugreifen möchte? Da es Zeiteinsparungen in der Feldphase aufgrund des Anspruchs an die Datenqualität aus bereits diskutierten Gründen nur bedingt geben kann, sehen wir es als zwingend notwendig an, ein Unternehmen so zu strukturieren, dass an anderen Stellen Zeit eingespart werden kann:
- Kurze Wege im Projektteam: Wenn Projekte schnell durchgeführt werden sollen, müssen auch Strukturen in einem Institut so aufgebaut werden, dass Entscheidungen möglichst schnell getroffen werden können. Durch kleine und flexible Projektteams, die einen direkten Zugriff auf unterschiedliche Ressourcen haben (zum Beispiel Programmierung, Tabellierung, Auswertung) können so umständliche Prozesse wie beispielsweise die Aufteilung über verschiedenen Abteilungen hinweg deutlich verkürzt werden. Dieser Aspekt bietet sicherlich mit das größte Einsparpotenzial bezüglich der Projektdauer.
- Einsatz visualisierender Tools: Bei der Befragung selbst können mittlerweile viele Methoden zum Tragen kommen, die für den Probanden schnell zu beantworten sind und in der Auswertung ebenfalls schnell umgesetzt werden können. Gerade Heatmaps für zum Beispiel Konzepte oder Verpackungen sind oftmals sehr aufschlussreich, schnell umzusetzen und auszuwerten.
- Reduktion der Befragungsdauer: Häufig werden verschiedene Aspekte redundant abgefragt. Eine kritische Prüfung beziehungsweise eine Entschlackung von Fragebögen hat jedoch mehrere Vorteile, wie auch etwa die Zeitersparnis bei der Abstimmung mit dem Kunden, bei der Erhebung selbst, aber auch in der Auswertung. Natürlich ist dabei ein enger Austausch mit dem Kunden wichtig, um gemeinsam zu definieren, welche Aspekte wirklich direkt abgefragt werden sollen und was gegebenenfalls über eine tiefergehende Datenanalyse bewirkt werden kann (siehe nächster Punkt).
- Tiefergehende Ergebnisse mittels Datenanalyse: Viele Aspekte innerhalb einer Befragung müssen nicht zwingend direkt im Fragebogen abgefragt werden, sondern können auch später durch das gewählte Setting analysiert werden (zum Beispiel monadische Testdesigns) oder aber durch die Berechnungen bereits abgefragter Daten. Hierzu werden bestimmte kleine Module in den Fragebogen eingebaut, deren Auswertung nach der Datenbereinigung wiederum standardisiert werden können (zum Beispiel mit Treiberanalysen, Loyalitätsindizes). Dadurch wird Zeit in der eigentlichen Befragung eingespart, was sich zusätzlich auf eine Verbesserung der Datenqualität auswirkt.
- Zuverlässiges, internationales Partnernetzwerk: Gerade bei einer internationalen Unternehmensausrichtung ist es sehr wichtig, auf ein gutes Partnernetzwerk in den Ländern zurückgreifen zu können. Nur so können sowohl Qualität als auch Schnelligkeit bei Multi-Country-Studien gewährleistet werden.
Abschließend betrachtet, spielt die Reduktion der reinen Felderhebung zwar eine gewisse Rolle, um schnellere Ergebnisse liefern zu können. Aus unserer Sicht sind aber darüber hinausgehende Maßnahmen von größerer Bedeutung, um schnelle Ergebnisse ohne signifikante Qualitätsverluste zu erzielen und um „quick“, aber nicht „dirty“ zu sein.
Der Autor

Weitere Informationen zum Unternehmen auf marktforschung.de:

Kommentare (0)
Noch keine Kommentare zu diesem Artikel. Machen Sie gerne den Anfang!
Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.
Anmelden