Prof. Dr. Stefanie Scholz, Dr. Christian Winkler KI-gestützte Persona-Analyse aus User Generated Content

Für die meisten Unternehmen ist es essenziell, die eigene Zielgruppe genau zu kennen. Mit Persona-Analysen können Gruppen auf ihre Interessen oder andere Merkmale untersucht werden. Was vorher kompliziert und aufwändig war, kann heute dank KI automatisiert und objektiv durchgeführt werden.

Personas 

In der Marktforschung sind Persona-Analysen seit vielen Jahren bekannt und in vielen Unternehmen im Rahmen der Zielgruppensegmentierung oder kundenorientierter Produktentwicklung und Kommunikation etabliert. Personas unterstützen durch oftmals sehr anschaulich dargestellter "Stereotypen" eine intuitive Auseinandersetzung mit unterschiedlichen Zielgruppen und deren Interessen, Merkmale etc.. Allerdings sind Persona-Analysen relativ kompliziert und aufwändig. Dazu kommt, dass die Resultate subjektiv geprägt sind. 

Mittels moderner KI-gestützter Verfahren kann es jedoch gelingen, den Analyse- und Identifikations-Prozess solcher Personas automatisiert und objektiv, d.h. unüberwacht und auf Basis umfangreicher Daten durchzuführen. 

Der folgende Beitrag zeigt anhand eines konkreten Beispiels die Möglichkeiten einer KI-gestützten Persona-Modellierung, welche User Generated Content (UGC) zugrunde legt. Dies stellen wir anhand eines Beispiels vor und zeigen, wie man daraus Erkenntnisse ableiten kann und insbesondere, was im Vergleich zu einer manuellen Analyse möglich und einfach bzw. mit geringem manuellem Aufwand erledigt werden kann.

Automatisierte Erzeugung von Personas 

Häufig stellt sich an erster Stelle die Frage, welcher Inhalt für eine Analyse verwendet werden kann. Das ist nicht trivial, schließlich wird hierdurch der Grundstein für alle weiteren Erkenntnisse und Implikationen gesetzt. Um nicht bereits an diesem Punkt einen Selektionsbias durch die Quellenwahl zu erzeugen, sollten hier automatisierte und iterierende Suchmaschinenabfragen zum Einsatz kommen. Je nach Anwendungszweck kann dabei eine Fokussierung auf redaktionellen oder User Generated Content (UGC) erfolgen. 

Bei der Datenakquisition ist auf die Einhaltung des Urheberrechts (lediglich temporäre Speicherung) sowie auf Datenschutz (z.B. durch Pseudonymisierung) zu achten. 

Automatisierte Analyse-Pipeline (für vergrößerte Ansicht auf das Bild klicken)

Anschließend erfolgt eine automatisierte, linguistische Analyse: Dies ist besonders wichtig, weil durch die sog. "Lemmatisierung" besonders in flektierten Sprachen eine viel bessere Trennschärfe erreicht werden kann. Außerdem können für unterschiedliche Persona-Modelle nur Wörter einer bestimmten Wortart berücksichtigt werden (wie z.B. Substantive oder Adjektive, in Einzelfällen auch Verben). Auch die Kombination unterschiedlicher abhängiger Worte (z.B. Adjektiv-Substantiv-Kombinationen) in Sätzen können mithilfe der linguistischen Satzanalyse isoliert und später als sog. Features in den Persona-Modellen verwendet werden. 

Mithilfe von Advanced Analytics-Methoden wie Machine Learning werden aus den aggregierten Daten schließlich die Persona-Modelle berechnet. Die Personas können dann in Form von Word Clouds dargestellt werden, die die Wörter (oder Features) enthalten, welche die Persona auszeichnen. Diese können anschließend interpretiert bzw. auch dazu genutzt werden, die Persona zu benennen oder noch genauer zu charakterisieren. 

Diese Methode arbeitet unscharf, das heißt ein einzelner Autor wird also nie einer einzigen Persona zugeordnet, sondern ist immer eine Mischung aus unterschiedlichen Personas. 

Zuordnung von Autoren-Profilen zu Personas (für vergrößerte Ansicht auf das Bild klicken)

Neben der inhaltlichen Definition der Persona ermittelt das oben genannte Verfahren allerdings noch mehr – nämlich auch die Größe der jeweiligen Persona im Vergleich zu den anderen. Außerdem kann durch die automatisierte Berechnung der Personas und deren Größe auch ein Aufriss über die Zeit erfolgen. Damit lassen sich die relativen Anteile der Autoren an den Personas sehr gut darstellen – und sogar Trends werden so erkennbar. Sehr spannend daran ist, dass diese ganzen Berechnungen mit unüberwachten Verfahren durchgeführt werden. Ein Bias ist damit höchstens aufgrund der Datenquelle selbst möglich, nicht aber durch die Verfahren oder voreingenommene Trainingsmengen bzw. subjektive Einschätzungen einzelner Researcher. 

Datengrundlage 

Bereits der Claim „the front page of the internet” macht den Anspruch von Reddit als eine der führenden sozialen Netzwerke im englischsprachigen Raum deutlich. Obwohl der Großteil der auf Reddit aktiven User (ca. 50 Prozent) aus den USA stammt und nur knapp drei Prozent aus Deutschland, dürfte seit Anfang des Jahres die Bekanntheit von Reddit auch hierzulande rapide gestiegen sein. Zahlreiche im Subreddit WallStreetBets interagierende Kleinanleger haben zu Jahresbeginn in einer “konzertierten Aktion” den Aktienkurs der Videospielkette GameStop in die Höhe getrieben. Hierdurch entstanden Milliardenverluste für Hedgefonds, die auf fallende Kurse gesetzt hatten.  

Die Analyse eines sozialen Netzwerks ist mit großen Datenmengen verbunden. Die Lizenz von Reddit ist liberal genug, den Download von Daten für eigene Analysezwecke zu erlauben. Dafür bietet Reddit selbst ein API an. URLs älterer Artikel können über Drittanbieter ermittelt werden. 

Für diesen Artikel wurde das "Subreddit" WallStreetBets analysiert:

Mengengerüste und Statistik 

Mithilfe des Reddit-APIs ist es möglich, innerhalb kurzer Zeit 28.359.837 Posts und Kommentare herunterzuladen (von der Gründung in 04/2012 bis 03/2021). Von allen Posts und Kommentaren sind 1.471.476 Initialposts. Um nun die Popularität von WallStreetBets besser einschätzen zu können, sollen zunächst die Verteilung dieser Initialposts über die Zeit betrachtet werden. Beginnend ab 2015 wurde WallStreetBets immer populärer, besonders im letzten Quartal 2020 hat sich diese Entwicklung enorm verstärkt. 

Anzahl der Toplevel-Posts (logarithmische Darstellung) (für vergrößerte Ansicht auf das Bild klicken)

Insgesamt haben 509.532 Autoren haben einen Initialpost eingestellt. Auch lässt sich ein enormes Wachstum seit Jahresbeginn 2021 feststellen. 

Anzahl der Autoren für Toplevel-Posts (logarithmische Darstellung) (für vergrößerte Ansicht auf das Bild klicken)

Ergebnisse Personas 

Nachdem nun deutlich wurde, dass sich das WallStreetBets-Subreddit aktuell und relevant ist, steht im Folgenden nun die inhaltliche Analyse der Daten im Vordergrund. Bei der extrem großen Menge an Beiträgen ist allerdings ein Lesen der einzelnen Posts nicht möglich.  Stattdessen nutzt man das oben beschriebene Verfahren zur automatisierten Generierung von Personas. Nach einer linguistischen Analyse und der Reduktion auf Substantive, Adjektive und Verben ergibt sich folgende Struktur von 20 Personas: 

Wordclouds für die berechnete Persona-Modelle (für vergrößerte Ansicht auf das Bild klicken)

Bereits hier sind die Stereotypen sehr gut erkennbar. So gibt es einige Personas, die sich nur mit speziellen Aktien beschäftigen (Symbole GME und AMC), ebenso scheinen Kryptowährungen eine große Rolle zu spielen, allen voran das Dogecoin. Es gibt auch einige allgemeine Fragestellungen, ob Aktien verkauft oder gehalten werden sollen, wie man am besten investiert und das Wort "moon" steht sinnbildlich für Aktien, deren Kurse durch die Decke ("bis zum Mond") gehen. "Robinhood" ist ein amerikanischer Trading-Anbieter, mit dem auch Kleinanleger kostengünstig (bzw. sogar kostenlos) Aktien handeln dürfen. Einige Allgemeinplätze sind natürlich nicht zu vermeiden, die Menge hält sich allerdings im Rahmen. 

Das Persona-Modell könnte nun in unterschiedliche Richtungen beeinflusst werden: 

  • Man könnte die Auswahl der Wortarten noch weiter reduzieren, z.B. nur Substantive oder nur Adjektive verwenden. 
  • Es wäre möglich, die Anzahl der Personas zu verändern (für die optimale Anzahl gibt es sog. Gütekriterien). 
  • Denkbar ist außerdem, das Persona-Modell nur für einen eingeschränkten Zeitraum zu berechnen. 
  • Im Moment sind alle Autoren gleichberechtigt berücksichtigt worden. Auch dies ließe sich problemlos einschränken, um z.B. nur solche zu berücksichtigen, die mindestens zehn Beiträge geschrieben haben. 

Alle genannten Alternativen (und noch viele mehr) werden häufig angewendet. Dabei hilft es sehr, dass die gesamte Berechnung automatisiert durchgeführt werden kann. Der Aufwand steckt dann ausschließlich in der Interpretation der Modelle, nicht aber in deren Erzeugung. 

Zeitentwicklung Personas 

In der Persona-Analyse hat sich unter anderem gezeigt, dass drei Personas existieren, die direkt mit Aktienkursen (GME, s.u.) oder Kryptowährungen (Dogecoin) verbunden sind. Bei „GME“ geht es um die Firma GameStop, einen Offline-Händler für Videospiele (s. Anmerkungen oben).  Besonders spannend daran ist, dass diese Personas komplett unüberwacht und ohne vorherige Kenntnisse nur aus den Inhalten des WallStreetBets-Subreddits ermittelt wurden. Das identische Verfahren lässt sich auf nahezu beliebig andere Textinhalte anwenden. 

Relative Persona-Größen in WallStreetBets Januar/Februar 2021 (für vergrößerte Ansicht auf das Bild klicken)

Neben den qualitativen Analysen ist es nun spannend zu ergründen, ob durch die Zunahme der relativen Persona-Anteile a eine Beeinflussung der Aktienkurse vorhergesagt werden könnte. Dazu kann man die Tageskurse von GME von der NASDAQ-Börse herunterladen und im Verhältnis zu den Persona-Größen im Zeitverlauf darstellen. 

Aktienkurs von GME in orange im Vergleich zu der relativen Persona-Größe (für vergrößerte Ansicht auf das Bild klicken)

Betrachtet man GameStop, ist eindeutig zu erkennen, dass die Diskussion in WallStreetBets sehr viel früher begonnen hat als die eigentliche Steigerung des Aktienkurses. Ein kausaler Zusammenhang ist somit äußerst wahrscheinlich. 

Ergebnis 

Die erzielten Ergebnisse zeigen, dass das Verfahren mit KI-generierten Personas gut funktioniert. Neben der kompletten Automatisierung ist auch die Domänenunabhängigkeit vorteilhaft. Das Modell kann auf nahezu beliebige Textdaten angewendet werden – besonders sinnvoll ist das bei großen Datenmengen und bei zeitgestempelten Daten. 

Die genannten Techniken lassen sich außerdem mit Vorhersagemodellen kombinieren, um z.B. Saisonalitäten erkennen und einen datenbasierten Ausblick auf die Zukunft geben zu können. 

WallStreetBets selbst entwickelt sich weiter, auch wenn es nun kein "Insidertipp" mehr ist. Vor kurzem haben die Nutzer dort die Volkswagen-Aktie ins Visier genommen und in neue Höhen getrieben, weil sie VW zurzeit als einzigen echten Konkurrenten zu Tesla wahrnehmen. Wie sich das weiterentwickelt und wie viel Substanz dahinter tatsächlich steckt, wird die Zukunft zeigen. 

Über die Autoren

Prof. Dr. Stefanie Scholz ist Professorin für Sozialwirtschaft an der SRH Wilhelm ­ ­­­­Löhe Hochschule in Fürth. Nach ihrer Tätigkeit als Bereichsleiterin für Marketing und Vertrieb befasst sie sich mit KI-gestützten Marketinganalysen. Data driven Marketing und Advanced Analytics stehen im Fokus ihrer Forschungsaktivitäten. 

Dr. Christian Winkler ist Gründer der datanizing GmbH und promovierte in Theoretischer Physik. Er arbeitet seit 20 Jahren in der Softwareentwicklung im Bereich Big Data/KI, insbesondere mit Fokus auf intelligente Algorithmen zur Massendatenverarbeitung im Bereich des Maschinellen Lernens. Als Data Scientist und Solution Architect begleitet er Projekte in den Bereichen Text Mining und Netzwerkanalyse. 

Täglicher Newsletter der Insightsbranche

News +++ Jobs +++ Whitepaper +++ Webinare
Wir beliefern täglich mehr als 9.000 Abonnenten

/jre

 

Diskutieren Sie mit!     

Noch keine Kommentare zu diesem Artikel. Machen Sie gerne den Anfang!

Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.

Anmelden

Mehr zum Dossier: KI in Marktanalyse und Kundenmanagement

Artikel dieser Ausgabe:

alle anzeigen

Weitere Highlights auf marktforschung.de