Applied Science Web Scraping in der Marktforschung: Eine Goldader für das Marketing

Web Scraping oder Web Harvesting ist die Methode der Stunde in der modernen Marktforschung. Warum der Einsatz von Web Scraping gerade jetzt an Popularität gewinnt, welche Einsatzmöglichkeiten besonders vielversprechend sind und wie die Methode effektiv eingesetzt werden kann, verraten uns Prof. Dr. Michael Fretschner und Prof. Dr. Jan-Paul Lüdtke in ihrer monatlichen Kolumne “Applied Science”.

Das "Abschürfen" von Informationen und Daten aus Webseiten kann für Unternehmen so lukrativ wie eine ergiebige Goldader sein. Was beim Web Scraping zu beachten ist, erfahren Sie in dieser Ausgabe von "Applied Science". (Foto: picture-alliance/ ZB | Ralf Hirschberger)


Web Scraping als Antwort der Marktforschung auf digitalisiertes Kundenverhalten

Die letzte Dekade hat fundamentale Veränderungen mit sich gebracht, wo wir uns als Mitarbeitende, Kunden oder Anbietende von Produkten und Dienstleistungen aufhalten und miteinander interagieren. Aktuelle Studien gehen davon aus, dass wir heute ca. 40 Prozent unserer täglichen Wachzeit vor Bildschirmen verbringen, wovon 60 bis 70 Prozent auf interaktive Endgeräte wie PC, Tablet oder Smartphone entfallen. Durch den Wechsel von Aufmerksamkeit und Interaktion auf digitale Kanäle hat sich eine weitere wesentliche Veränderung eingestellt: Wir hinterlassen einen riesigen Schatz erfassbarer und messbarer Spuren unseres Verhaltens als in der alten analogen Welt. Jede Minute führen Menschen weltweit 5,9 Millionen Google-Suchen durch, tätigen sechs Millionen digitale Käufe und teilen 66.000 Fotos auf Instagram.

Mit diesen Spuren lassen sich unmittelbar und mittelbar Daten für Marktforschung gewinnen und nutzen.

Beispiele für unmittelbare Datenpunkte:

  • Bewegungsdaten und Interaktionen aus Web-Tracking Systemen wie Google Analytics
  • Daten aus Social Listening: Postings, Likes und weitere Interaktionen in Social Media
  • Kundenmeinungen in Form von Reviews oder Fragen
  • View- und Klickdaten von digitaler Werbung
  • Response-Daten aus CRM-Systemen: E-Mail-Öffnungen, Arten der Response

Beispiele für mittelbare Daten:

  • Produktempfehlungen in Cross- und Upselling auf Basis von Recommenderalgorithmen
  • Attribution und Wertbeiträge von Marketingkanälen
  • Daten zu Kundenwert und Kundentreue

Folglich verändert sich auch die Marktforschung erheblich. Marktforschung kann durch Web Scraping (das Auslesen von Inhalten und Daten aus Webseiten) auf präzise Beobachtungsdaten zurückgreifen, was gegenüber analogen Erhebungen oft günstiger und schneller ist und die externe Validität der gewonnen Daten erhöht. Zudem können viele Fragen, die bisher im Rahmen von (wiederkehrenden) Ad-hoc-Erhebungen umgesetzt wurden, in kontinuierliche Messungen überführt werden, was verlässliche Längsschnittuntersuchungen, zum Beispiel auf Basis stabiler Kohorten, erleichtert.

Darum hat eine Forschungsgruppe um Johannes Boegershausen von der Rotterdam School of Management eine aktuelle Übersichtsstudie zum Einsatz von Web Scraping in der Marktforschung im renommierten Journal of Marketing veröffentlicht. Sie zeigen auf, in welchen Bereichen der Einsatz von Web Scraping besonders vielversprechend ist, welcher methodische Rahmen für den Einsatz berücksichtigt werden sollte, und welche zukünftigen Einsatzmöglichkeiten für Web Scraping besonders vielversprechend sind.

Anwendungsmöglichkeiten von Web Scraping in der Marktforschung

Die Autoren skizzieren vier grundlegende Anwendungsmöglichkeiten für Web Scraping in der Marktforschung. Hierbei sollten Leser berücksichtigen, dass die Anwendungsmöglichkeiten im Artikel auf die akademische Forschung abzielen, dennoch in unseren Augen genauso für die angewandte Marktforschung relevant und wertvoll sind.

  1. Neue Phänomene analysieren: Web Scraping erlaubt Zugang zu neuartigen Beobachtungen: Das Verhalten und die Interaktionen in sozialen Netzwerken, Angebots- und Nachfrageeffekte auf Marktplätzen, Interaktionen mit digitalen Angeboten; durch Web Scraping entstehen innovative Perspektiven auf neuartige Phänomene, die dennoch unser Verhalten und die Interaktion von Individuen, Unternehmen und zwischen Zielgruppen und Anbietern von Waren und DIenstleistungen prägen.
  2. Die ökologische Validität von Beobachtungen stärken: Viele Fragestellung der Marktforschung waren bisher auf experimentelle, kleinzahlige oder sehr teure, großzahlige Erhebungen beschränkt. Durch Web Scraping kann die Effizienz bei der Erhebung gesteigert, die externe Validität von Daten durch Beobachtung erhöht und die Validität insgesamt durch die Kombination mit bestehenden Methoden deutlich gesteigert werden.
  3. Methoden der Marktforschung (weiter-)entwickeln: Durch Web Scraping verschmilzt die Marktforschung weiter mit dem produktiven und kreativen Marketing. Verfahren des angewandten Web Scraping haben heute zum Beispiel wesentlichen Einfluss auf die Entwicklung von Werkzeugen zur automatischen Textanalyse und -kreation.
  4. Messungen verbessern: Webscraping kann Verzerrungen und Validitätsproblemen bei der Datengewinnung durch “künstliche” Erhebungen (z.B in Laborexperimenten) vorbeugen. Messungen werden valider und präziser. Zudem können Beobachtungen bei gleichbleibenden Stichproben über längere Zeiträume einfacher abgewickelt werden.

Ein methodisches Framework für den erfolgreichen Einsatz von Web Scraping

Das Forschungsteam stellt ein methodisches Framework zum effektiven Einsatz von Web Scraping vor, welches zwei Dimensionen berücksichtigt. Erstens wird ein geeigneter Prozess für Web Scraping eingeführt und zweitens werden wichtige Rahmenparameter diskutiert, die für den Einsatz geprüft werden müssen. In der folgenden Abbildung ist das Framework in Anlehnung an die Forschungsarbeit dargestellt.

Framework zum Einsatz von Web Scraping für die Marktforschung (vgl. Boegershausen et. al. 2022).

Die erste Phase im Prozess ist die Auswahl der richtigen Datenquellen. Diese Phase birgt drei Herausforderungen:

1.1 Die Erschließung möglicher Datenquellen: Durch das Wegfallen typischer Gatekeeper stehen plötzlich Millionen potenzieller Datenquellen zur Verfügung. So gibt es beispielsweise alleine in den USA 2,1 Millionen Onlineshops. Zudem unterscheiden sich die extrahierbaren Daten enorm zwischen möglichen Quellen. Während bei Amazon Abverkaufsdaten zu Büchern extrahiert werden können, kann bei Goodreads.com auf das Leseverhalten der Nutzer geschlossen werden. Marktforschende sollten hier (1) nicht nur auf naheliegende, populäre Datenquellen zurückgreifen und (2) bewerten, inwiefern weitere angeschlossene Datenquellen und APIs zusätzliche Datenqualität und -validität liefern können.

1.2 Die Bewertung des Einsatzes von Web Scraping gegenüber möglichen Alternativen: Webdaten stehen nicht nur durch Web Scraping zur Verfügung. Oft können Daten auch per offizieller API erfasst werden. Teilweise stellen Websitebetreiber auch von sich aus (anonymisierte) Datensätze für Marktforschungszwecke zur Verfügung, wie zum Beispiel auf Machine-Learning Plattformen wie Kaggle.

1.3 Die Berücksichtigung des Kontexts der Daten: Für ein gutes Verständnis der Daten ist ein Verständnis der Anwendungsfälle, in denen die Daten entstehen, sehr wichtig. Marktforscher:innen sollten die entsprechenden Angebote selbst nutzen und kennenlernen, um den Kontext zu verstehen, in dem die Daten entstehen. Ebenso sollten Marktforscher:innen aufmerksam Veränderungen in Usability und Design der Datenquellen beobachten und berücksichtigen.

Die zweite Phase im Prozess ist das Design der Datensammlung. Diese Phase beinhaltet vier wesentliche Herausforderungen:

2.1 Auswahl der zu extrahierenden Daten: Zunächst ist ein gutes technisches Verständnis der gängigen Scraping-Methoden und der Verwendung von APIs notwendig. Dann müssen die relevanten Daten vor dem Hintergrund von AGB der Datenquellen und DSGVO auf ihre Extrahier- und Nutzbarkeit geprüft werden. Bei der Extraktion unterschiedlicher Datenquellen muss besonders darauf geachtet werden, Schlüssel zu definieren, mit denen die Daten bei der Auswertung zusammengeführt werden können.

2.2 Gestaltung der Stichprobe: Die große Herausforderung beim Web Scraping ist, dass echte Zufallsstichproben der gewählten Grundgesamtheiten nahezu unmöglich gezogen werden können. Hier sind Marktforscher:innen gefragt, sinnvolle Annahmen und Erläuterungen zur Stichprobenzusammensetzung zu treffen und diese idealerweise mit dem Team und relevanten Dritten zu prüfen. Beispielsweise muss bei produkt-orientierten Analysen oft der Long-Tail- Charakter von Onlineshops beachtet werden, damit auch Produkte mit relativ geringer einzelner Aufmerksamkeit bei der Analyse Berücksichtigung finden.

2.3 Frequenz der Datenerhebung: Daten aus dem Web sind nicht statisch. Sie verändern sich oder verschwinden einfach. Das erfordert, dass man sich über die Frequenz der Datenerhebung Gedanken machen muss. Dabei muss stets zwischen dem Wunsch reichhaltiger Daten und rechtlichen und technischen Anforderungen zu sparsamer Messung abgewogen werden.

2.4 Datenverarbeitung während der Erhebung: Das Forschungsteam empfiehlt, Rohdaten der Extraktion zu erhalten, um potenzielle Veränderungen der Anforderungen der Datenerfassung im Nachgang berücksichtigen zu können. Zudem kann mit Rohdaten die Transparenz der Datenerfassung und des methodischen Vorgehens erhöht werden, was Fehlern vorbeugen kann.

Die dritte Phase im Prozess ist die Datenextraktion. Diese Phase bringt drei Herausforderungen mit sich.

3.1 Performance der Datensammlung:  Gerade zu Beginn von Web-Scraping-Vorhaben sollten Daten testweise über alternative mögliche Quellen erfasst werden, um die verlässlichsten Quellen zu identifizieren. Die Erfassung von URLs und Timestamps hilft zudem dabei, die anvisierten Ziele zu Datenumfang und -frequenz nachzuvollziehen.

3.2 Beobachtung und Kontrolle der Datensammlung: Die gesammelten Daten sollten auf Makroebene (z.B. Größe des Datensatzes) und Mikroebene (z.B. Anteil fehlender Datenpunkte für relevante Variablen) geprüft werden. Wenn über längere Zeitpunkte Daten erfasst werden, sollten hierfür Push-Alerts z.B. per Mail angelegt werden, sollte sich die Qualität oder der Umfang der Daten plötzlich ändern.

3.3 Datendokumentation während und nach der Extraktion: Zunächst ist es wichtig, den Prozess und die Methode der Erfassung zu dokumentieren. In den Datensätzen müssen Variablen und Ausprägungen mit geeigneten Erläuterungen beschrieben werden, damit auch Dritte mit den Daten arbeiten können. Ebenso sollten während und nach der Erfassung Probleme, Auffälligkeiten und Fehler im Erfassungsprozess und im Datensatz dokumentiert und beschrieben werden.

Neben dem Prozess des Web Scraping müssen drei wichtigen Rahmenbedingungen für den Einsatz geprüft werden, die wir abschließend in Kürze zusammenfassend vorstellen:

1. Technische Machbarkeit: Marktforschende prüfen, ob die relevanten Daten extrahierbar sind. Hierzu gehört die grundsätzliche Erfassbarkeit, aber zusätzlich auch die möglichen Limitationen in Frequenz und Umfang zur Erfassung in den Quellen oder an den Endpoints der Datenerfassung.

2. Rechtliche und ethische Bedenken: Für die Erhebung muss sichergestellt werden, inwieweit die relevanten Daten öffentlich verfügbar oder durch Login-Walls gesichert sind.  Zudem dürfen Daten nur vor dem Hintergrund geltender datenschutzrechtlicher Einschränkungen erhoben werden, die somit berücksichtigt werden müssen (z.B. DSGVO, ePrivacy).

3. Validität / Richtigkeit der Ergebnisse: Zunächst sollte vor Start des Live-Scraping abschließend sichergestellt werden, dass nur für die Fragestellung relevante Daten erfasst werden, dass deren Erfassung jedoch fehlerfrei auch in der gewünschten Frequenz funktioniert. Es sollte zudem geprüft werden, ob die Daten durch algorithmische Manipulation auf den Quellseiten verzerrt sind. Zudem muss sichergestellt werden, dass die Erfassung die gewünschte Stichprobengröße ermöglicht und dass die Stichprobe die gewählte Grundgesamtheit abbildet.

Ausblick und Take-Aways

Die vorherigen Absätze zeigen, dass der Einsatz von Web Scraping einerseits sehr vielversprechend ist, da sehr effektiv großzahlige, verlässliche und neue Informationen für die Beantwortung wichtiger Fragen der Marktforschung erschlossen und genutzt werden können.

Andererseits ist der richtige Einsatz von Web Scraping nicht trivial. Im Rahmen seines Einsatzes müssen zahlreiche Herausforderungen berücksichtigt werden, damit es effektiv und verlässlich die richtigen Erkenntnisse im Rahmen der Forschung liefert.

Das Forschungsteam schließt seinen Artikel mit einem Ausblick für zukünftige Einsatzmöglichkeiten von Web Scraping. Zunächst betonen sie, dass stets neue Anwendungen in digitalen Kontexten hinzukommen: Ob Metaverse, neue soziale Netzwerke, neue Plattformen, Games oder Streamingdienste, diese Liste kann beliebig erweitert werden. Hieraus entstehen stets neue Anwendungsfelder, um das Verhalten und die Absichten von Kunden noch besser zu verstehen.

Ebenso steht Web Scraping besonders in Bezug auf die Integration unterschiedlicher Datenquellen noch in seinen Anfangsschuhen. Dabei scheint viel Potenzial in der Kombination verschiedener Datenquellen, zum Beispiel aus persönlichen Äußerungen auf Social Media und Bewegungs- und Kaufdaten im E-Commerce. Drittens kann Web Scraping eine Quelle neuer Methoden der Marktforschung werden, beispielsweise, um auf Basis von bisher nicht messbaren Interaktionen neue Modelle zur Prognose von Kundenwert oder Kundenloyalität zu entwickeln. Schließlich sieht das Forschungsteam starke Effizienzgewinne in der Nutzung von Web Scraping und verwandten Ansätzen wie der Nutzung von APIs oder öffentlichen Datenbanken.

Die Erhebung kann in vielen Bereichen günstiger und schneller werden, als es mit klassischen Methoden der Marktforschung möglich ist.

Wir sind sehr optimistisch bezüglich der Möglichkeiten der Anwendung und die Machbarkeit des Einsatzes von Web Scraping im Rahmen der praktischen Marktforschung. Es lohnt sich, diesem Feld in den kommenden Jahren aufmerksam zu folgen. Daher möchten wir Sie ausdrücklich ermutigen, auch in Ihrem Unternehmen den Einsatz von Web Scraping in der Marktforschung zu prüfen und offen zu diskutieren. Wir sind überzeugt, dass auch Sie von spannenden Anwendungsfällen profitieren können.

 

Über die Personen

Prof. Dr. Michael Fretschner ist Co-Gründer der smart impact GmbH und Professor für Marketing & E-Commerce an der NORDAKADEMIE Hochschule der Wirtschaft.

Prof. Dr. Jan-Paul Lüdtke ist Co-Gründer der smart impact GmbH sowie Professor und Studiengangsleiter für E-Commerce an der Fachhochschule Wedel.

Diskutieren Sie mit!     

Noch keine Kommentare zu diesem Artikel. Machen Sie gerne den Anfang!

Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.

Anmelden

Weitere Highlights auf marktforschung.de