Das Beste aus beiden Welten: Data Science als Ergänzung zu klassischen Forschungsmethoden

Vanessa Viellieber, MHP - A Porsche Company

Eine kontroverse Diskussion, veranschaulicht anhand der Mobilitätsindustrie: Warum die Verwendung von Social Media und anderen frei verfügbaren Daten notwendig ist, um in der klassischen Marktforschung die richtigen Fragen stellen zu können, erklärt Vanessa Viellieber, Senior Data Scientist, bei MHP - A Porsche Company.

Und noch eine Studie zum Thema Elektromobilität: Sinnvolle Zusammensetzung der Stichprobe;  qualitative Annäherung ans Thema durch eine Gruppendiskussion, anschließende quantitative Untermauerung; zahlreiche offene und geschlossene Fragen in Onlinebefragungen mit diversen Auswahlmöglichkeiten, welches Verkehrsmittel die Teilnehmer bevorzugen und unter welchen Umständen sie sich vorstellen könnten, ein Elektrofahrzeug zu kaufen. Die Ergebnisse? Nicht überraschend für jemanden, der annähernd mitbekommt, was über Elektromobilität in aller Munde ist. Infrastruktur, Kosten und Ladezeit als die größten Hindernisse für Verbraucher, in ein Elektrofahrzeug zu investieren.

Unter anderem in Twitter, Facebook, Youtube, diversen Blogs und Fachforen teilen mobile Menschen ihre Mobilitätserfahrungen mit, diskutieren über die Vor- und Nachteile diverser Produkte und Services. Durch die Nutzung des Smartphones, bspw. zur Navigation oder zur Buchung des Zugtickets, hinterlassen sie nahezu überall einen digitalen Fußabdruck oder sogar eine ganze Spur. Bis 2021 werden um die 28 Milliarden Geräte mit dem Internet verbunden sein . Damit ergibt sich das Potenzial, über eine Fundgrube an unmittelbaren und persönlichen Informationen über Kunden zu verfügen.
Wirft man in Bezug auf das Mobilitätsverhalten einen Blick in die aus dem World Wide Web extrahierten Daten, stößt man von einem interessanten Aspekt auf den anderen: Kein Carsharingfahrzeug innerhalb der nächsten hundert Meter Umkreis verfügbar, dann eben ein Uber; mit dem Fahrrad zur Uni, aber nur wenn es über sechs Grad ist und nicht regnet; samstags mit dem Auto anstatt mit der Bahn zum Yoga, weil dann wieder ein Fußballspiel stattfindet und die S-Bahn unangenehm voll ist; mit dem Carsharingfahrzeug, trotz eigenem Fahrzeug in der Garage, in die Stadt, zur Vermeidung der lästigen Parkplatzsuche.

Zusammenhänge können wettbewerbsentscheidend sein

Diese Art von interessanten Zusammenhängen begegnen einem in einschlägigen Studien eher selten. Sie beziehen sich auf das Verhalten von Menschen in speziellen Situationen und sind mit klassischen Methoden oft nur mit hohem Aufwand identifizierbar. Dabei könnte es wettbewerbsentscheidend sein zu wissen,
… dass bei einer 20 Prozent höheren Flächendeckung das Carsharingangebot um 60 Prozent mehr genutzt werden würde;
… dass die Kundenzufriedenheit und damit die einhergehende Loyalität steigt, wenn bei schlechter Wettervorhersage bzw. anstehenden Events mit großen Menschenansammlungen die Verfügbarkeit der ÖPNV erhöht wird;
… dass die Abschaffung öffentlicher Parkplätze das innerstädtische Automobilaufkommen nicht reduziert.

Um wettbewerbsfähig zu sein, ist es wichtiger als je zuvor, Geschäftsmodelle zu entwickeln, deren Produkte und/ oder Services die Kundenbedürfnisse besser befriedigen als die des Wettbewerbs. Vor allen Dingen innerhalb von Industrien, welche sich durch die Digitalisierung in starkem Umbruch befinden und in denen neue Player die Marktverhältnisse in Frage stellen, stehen traditionelle Unternehmen unter großem Druck, ihr Fortbestehen zu sichern. So die Automobilindustrie, in welcher neue Wertschöpfungsketten entstehen, alte zerbrechen und die sich zunehmend zu einer mannigfaltigen Mobilitätsindustrie entwickelt.

Wie Richard Branson, erfolgreicher Investor und Gründer der Virgin Group, die mehr als 400 Unternehmen kontrolliert, sagte:

"Man sollte gut zuhören anstatt zu reden, denn sonst lernt man nichts Neues."

Durch die Entwicklung sozialer Netzwerke und digitaler Plattformen sowie die Verfügbarkeit anderer Daten, wie bspw. in  Open Communities  steigt die Anzahl verwendbarer Daten und somit das Potenzial der damit einhergehenden Möglichkeiten zur Erschließung neuer Einblicke. Kunden, potenzielle Kunden und Anti-Kunden  nutzen verschiedenste Plattformen im Internet, um sich über Ihr Produkt, die Produkte der Konkurrenz oder deren Bedürfnisse auszutauschen. Darin enthaltene relevante Informationen wie Muster, Korrelationen, Regeln oder Beziehungen können anhand von Data Science Analysemethoden identifiziert werden. Somit steigt das Potenzial, geschäftsrelevantes Wissen über seine Kunden und Wettbewerber zu lernen, mit der Anzahl der Daten, in welche es sich lohnt reinzuhorchen.

Die Herausforderung der Data Science Analysen in Bezug auf frei verfügbare Daten liegt dabei

  1. in der Auswahl der richtigen Daten/-quellen,
  2. in der Verfügbarmachung der Daten,
  3. im Handling mit der hohen Anzahl an Daten und
  4. in der Verwendung der richtigen Analysemethoden in Bezug auf die Datenart.

Über den gesamten Analyseprozess ist es essentiell, stets die eigentliche Forschungs- bzw. Analysefrage sowie das Analyseziel vor Augen zu haben. In einem iterativen Vorgehen lassen sich potenziell relevante Datenquellen ausfindig machen. Die richtigen Suchparameter ermöglichen es, relevante Daten von irrelevanten Daten zu trennen. Dies entspricht dem Prozess des sogenannten Information Retrieval. Web Scraping Methoden werden genutzt, um über entsprechende Schnittstellen die gewünschten Daten aus dem Netz zu extrahieren.

Im Folgenden ein Überblick von Daten, welche durch entsprechende Analysen näherungsweise erschlossen werden können : 

  • Demografische und psychografische Daten: Alter, Geschlecht, Einkommen, Familienstand, Beschäftigungsstatus, Bildung, Einstellungen, Lebensstil, Vorlieben, Neigungen.
  • Daten zur Nutzung des Internets und mobiler Endgeräte: Sitzungen, Seiten, verweisende Websites, angezeigte Inhalte, Navigation, durchgeführte Transaktionen, App-Downloads, Aufrufhäufigkeit, Verweildauer, Abbrüche, Feedback.
  • Daten aus sozialen Medien: Daten zu Netzwerken und Einflüssen, Profile, beruflicher Werdegang, Zugehörigkeit zu Gruppen, Produkt- und Firmenbezüge (was gefällt, wem wird gefolgt), Online-Kommentare und Kundenrezensionen, Kundenstimme.
  • Daten von Signalgebern und Sensoren: Variieren je nach Branche und Einsatzbereich, umfassen normalerweise Standort-, GPS-, Nähe- und biometrische Daten, RFID-Daten und Produktsensorenmeldungen. Im Bereich Mobilitätsindustrie beispielweise Elektroladesäulenstati, Feinstaubsensordaten und Verkehrsstromdaten.

Verarbeitung von textuellen Daten

Zu 80 Prozent liegen diese Daten in unstrukturierter Form vor, Tendenz steigend. Zu den wichtigsten unstrukturiert verfügbaren Daten gehören Texte, Bilder, Videos und Sprachaufzeichnungen – also praktisch alle Daten, welche Menschen in natürlicher Kommunikation generieren. Sie können in großem Umfang erfasst werden, es bedarf jedoch spezieller Methoden aus dem Data Analytics Bereich um sie analysieren zu können. Ein prototypischer Prozess der Verarbeitung von textuellen Daten ist in Abbildung 1 skizziert.


Abbildung 1: Von unstrukturierten Textdaten hin zur strukturierten Form als Input für weiterführende Analysen

Das Ziel dieses Prozesses ist es die Daten von einer unstrukturierten Form in eine strukturierte Form zu transformieren, um dann darin enthaltene Muster, Relationen und Informationen identifizieren zu können. Dazu bedient man sich an Algorithmen aus dem Bereich des Natural Language Processings (kurz NLP), also der computerbasierten Verarbeitung von natürlicher Sprache.
Beim Preprocessing geht es zunächst um Datenaggregation und -säuberung. Beispielweise werden Texte verschiedener User zusammengefügt und um unnötige Datenvariablen bereinigt. Nachdem die Texte in einzelne Tokens (= Wörter) zerlegt, die Wortart und Negationen innerhalb eines Textes identifiziert worden sind, werden im vierten dargestellten Schritt, der Named Entity Recognition (kurz NER) interessante Entitäten aus den Texten identifiziert. Abstrakt gesehen erfolgt dies in einem zweistufigen Prozess. Als erstes werden interessante Begriffe als solche erkannt. Danach gilt es, diese in bekannte Klassen von Entitäten einzuteilen, bspw. Produkte und Funktionen eines Produktes. In Bezug auf Wortmehrdeutigkeiten, sogenannte Ambiguitäten, und die Wahl der richtigen Bedeutung, besteht die Notwendigkeit, Domänenwissen in vorhandenen Logikbausteine integrieren zu können. Ein Beispiel für eine Wortmehrdeutigkeit ist „Cayenne“: Es könnte sich um den Cayenne Pfeffer, die Stadt auf den französischen Polynesien handeln oder aber auch das Fahrzeugmodell von Porsche gemeint sein. Die nachfolgenden Schritte sind besonders in der Analyse von Social Media Daten relevant, um bspw. aus dem Kontext schließen zu können, über welche Produkte/ Services die Kunden eine positive oder negative Bewertung vorgenommen haben.

Nachdem nun ausreichend strukturierte Informationen aus Textdaten generiert worden sind, können entsprechende Modelle entwickelt werden. Eine vor allem im Social Media Analytics Umfeld gängige Methode ist die Sentiment Analyse. Diese erfasst die Stimmung innerhalb von Texten. Kombiniert man diese bspw. mit einem Topic Modeling, also der Bestimmung von Themen, welche innerhalb der Texte diskutiert werden, ist man in der Lage zu erkennen, über welche Themen mit welcher Stimmung geschrieben wird.
Die zunehmende Anzahl verfügbarer Daten in Verbindung mit den sinkenden Kosten der Rechenleistung ermöglichen schnelle Fortschritte für Deep Learning Verfahren aus dem Bereich der Künstlichen Intelligenz (KI). Dadurch profitieren vor allem komplexe Datenverarbeitungsverfahren, wie die für die Verarbeitung natürlicher Sprache, durch immer bessere Verfahren und Algorithmen, sodass zunehmend einfacher qualitativ hochwertige Ergebnisse erzielt werden können.

Verknüpfung mit klassischen Methoden der Marktforschung

Zu den Grenzen der Analyse der frei verfügbaren Daten gehört, dass es kaum bis gar nicht möglich ist die Ground Truth in Onlinedaten zu validieren, da es keine klare Möglichkeit gibt, die Richtigkeit der demografischen Informationen einer Person und die Gültigkeit von Beiträgen festzustellen. Hier kommt wiederum eine Verknüpfung mit klassischen Marktforschungsmethoden ins Spiel, mit denen Ergebnisse validiert und auf eine repräsentative Basis gestellt werden können. Darüber hinaus ist eine Untersuchung der mit Data Science Verfahren erschlossenen Erkenntnisse mit Hilfe von klassischen Marktforschungsmethoden sinnvoll, da oftmals nur das tatsächliche Verhalten analysiert wird und dadurch ggf. die Einblicke in die Gedankenwelt der Konsumenten zu kurz kommen. Hinzu kommt, dass je nach Datenquelle nur digital-affine und damit tendenziell jüngere Zielgruppen den Betrachtungsgegenstand darstellen.

Abbildung 2 veranschaulicht, inwiefern sich Data Science Analysen und klassische Marktforschung komplementär ergänzen und somit neue, statistisch relevante Perspektiven vereint werden, die einen ganzheitlichen Weitblick auf die Thematik ermöglichen. Dabei sei es jedoch nicht ausgeschlossen, dass nicht auch Data Science Analysen fundiert oder klassische Marktforschung explorativ sein kann.


Abbildung 2 Data Science Analysen und Marktforschung: Eine komplementäre Sicht

Infolgedessen ergibt sich ein neues Modell der Interdisziplinarität. Eine Möglichkeit eines Zusammenarbeitsmodells ist in Abbildung 3 prozessual aufgezeigt. Nachdem gemeinsam mit den Fachexperten das Analyseziel definiert worden ist, geht es über in die explorative Data Science Analyse. Erste Erkenntnisse werden genutzt, um zusätzlich interessante Datenquellen auszuwählen und für die Interpretation der Analyseergebnisse zugänglich zu machen.

Sofern sich interessante Zusammenhänge, Muster oder Beziehungen haben finden lassen, auf deren Basis sich Änderungen in der Strategie, des Geschäftsmodells, Produkfeatures oder Marketingmaßnahmen begründen ließen, oder man einfach an die Grenzen der Möglichkeiten der Data Science Analysen gelangt ist, sind die Ergebnisse im Rahmen der klassischen Marktforschung genauer zu untersuchen. Erkenntnisse aus der Marktforschung können erneute Data Science Analysen begründen. Sofern die Ergebnisse dem Untersuchungsgegenstand dienen, gilt es, diese nachgelagert in entsprechende Maßnahmen zu überführen.


 
Abbildung 3: Prozessuale Abbildung der Methodenkombination aus Data Science und klassischer Marktforschung


Somit erweitern die Erkenntnisse aus den Open Source Datenanalysen den Blickwinkel und ermöglichen zum einen die Definition stichhaltiger Fragen und zum anderen, aufgrund eines geschärften Blicks bzw. einer erweiterten Perspektive des Betrachtungsgegenstands, eine bessere Interpretierbarkeit der Ergebnisse. Dieser erweiterte Blickwinkel und die damit einhergehende Interpretationsfähigkeit kann nochmals erweitert werden, indem man die Open Source Daten mit den exklusiven unternehmensinternen Daten verknüpft und somit latent vorhandene Muster und Wechselwirkungen aufdeckt.

Haben Sie mit der Kombination von Data Science und klassischen Marktforschungsmethoden bereits Erfahrungen gemacht? Sehen Sie das anders? Ich bin an Ihrer Meinung interessiert und freue mich auf einen anregenden Austausch.

Zur Autorin: Vanessa Viellieber ist Senior Data Scientist bei MHP - A Porsche Company. Sie studierte Wirtschaftsingenieurwesen und Informationswirtschaft am Karlsruher Institut für Technologie (KIT). Als Doktorandin forscht sie am Institut für Statistik an der Ludwig-Maximilian-Universität (LMU) in München. Ihr beruflicher als auch ihr Forschungsschwerpunkt liegt im Bereich der Analyse von unstrukturierten Daten. Dabei bedient sie sich linguistischen, statistischen und mathematischen Verfahren, um Fragestellungen aus der Forschung und der Industrie zu beantworten. Bei MHP ist sie unter anderem für das Business Development für kundennahe Prozesse im Bereich von Data Science & AI verantwortlich.
Sie hat den Data Science Lead von WETALKDATA inne. Eine Kooperation der Motor Presse Stuttgart (ein Special-Interest-Medienhaus, das unter anderem auch auto motor und sport herausgibt) und MHP. Im Rahmen dieser Kooperation werden bedarfsgerechte Studien in Bezug auf die Mobilität der Zukunft angeboten. Zur Durchführung der Studien wird auf die über 30-jährige Marktforschungserfahrung der Motor Presse Stuttgart in Kombination des Data Science und Beratungs-KnowHows von MHP zurückgegriffen.

Veröffentlicht am: 29.05.2019

 

Kommentare (0)

Keine Kommentare gefunden!

Neuen Kommentar schreiben

Kommentare geben ausschließlich die Meinung ihrer Verfasser wieder. Die Redaktion behält sich vor, Kommentare nicht oder gekürzt zu veröffentlichen. Das gilt besonders für themenfremde, unsachliche oder herabwürdigende Kommentare sowie für versteckte Eigenwerbung.

Über marktforschung.de

Branchenwissen an zentraler Stelle bündeln und abrufbar machen – das ist das Hauptanliegen von marktforschung.de. Unser breites Informationsangebot rund um die Marktforschung richtet sich sowohl an Marktforschungsinstitute, Felddienstleister, Panelbetreiber und Herausgeber von Studien, Marktdaten sowie Marktanalysen als auch an deren Kunden aus Industrie, Handel und Dienstleistungsgewerbe.

facebook twitter google plus