Dr. Dirk Held, aimpower Wie KI dabei hilft aus Sekundärdaten Insights zu gewinnen

Jede Sekunde werden riesige Mengen an Daten von Konsumenten im Internet generiert. Mithilfe von KI können aus den dort veröffentlichten Texten oder auch Bildern und Videos wertvolle Insights gewonnen werden. (Bild: picture alliance / Zoonar | Elnur Amikishiyev)
Die automatisierte Verarbeitung von Texten allgemein und damit auch von Consumer Generated Language hat in den letzten Jahren große Fortschritte gemacht. Eine maschinelle Verarbeitung von Texten basiert auf einem einfachen Prinzip: Wörter werden in Form eines Zahlenstrangs (Vektor) repräsentiert. Dieser Vektor enthält Informationen darüber, welche anderen Wörter häufig mit diesem Wort gemeinsam auftreten. Weniger technisch formuliert repräsentiert dieser Vektor die Bedeutung eines Wortes. Dies führte nicht nur zu einer signifikanten Verbesserung von maschinellen Übersetzungen, sondern diese Art der Textrepräsentation ermöglicht eine effiziente, mathematische Analyse von Semantik auch in großen Textmengen.
Natural Language Processing: Mit Wörtern rechnen
Ein illustrativer Anwendungsfall ist die Analyse von Produktreviews. Hier gibt es tausende Einträge in denen Konsumenten ihre Produkterlebnisse teilen und begründen, welche Eigenschaften sie schätzen und welche nicht. Maschinelle Textverarbeitung hilft hier zum einen Fake-Reviews – also maschinelle erzeugte Reviews – zu identifizieren, um die Datenqualität zu optimieren. Anschließend können über das so genannten Topic Modelling die inhaltlichen Themen identifiziert werden. Dazu werden diejenigen Reviews, die thematisch ähnlich sind, geclustert. Das ermöglicht einen effizienten Überblick über die relevanten Themen: Worüber reden die Konsumenten? Was erzeugt Zufriedenheit? Was erzeugt Frustration? Eine quantitative Analyse einer solch großen Textmenge wäre ohne maschinelle Hilfe kaum effizient möglich und dauert nun nur noch wenige Minuten.
Der zweite Schritt ist die detaillierte Kodierung der Texte, in dem Fall der Reviews. In der Primärforschung werden Antworten auf offene Fragen manuell kodiert. Bei einer Befragung mit einigen hundert Texten ist dies noch möglich (wenngleich teuer und zeitaufwendig), aber bei tausenden ist dies kaum machbar. Hier hilft wieder die Fähigkeit der neuen KI-Modelle die Semantik von Texten zu verstehen. Es ermöglicht Forschern nicht nur gezielt nach Themen zu suchen, sondern in wenigen Minuten alle Texte zu identifizieren, die semantisch zu diesem Thema passen: Solange ein Satz oder ein Wort die gleiche Bedeutung transportiert, wird es als passend kodiert, ohne dass das gesuchte Wort enthalten sein muss. Das macht die Kodierung flexibler und genauer. So können auch große Datenmengen effizient kodiert und quantitativ ausgewertet werden.
KI versteht die Bedeutung von Bildern
Insights über Konsumenten stecken nicht nur in Texten, sondern auch in Bildern. Hier gibt es erst seit kurzer Zeit die Möglichkeit die Semantik, d. h. die im Bild enkodierte Bedeutung maschinell zu analysieren. Diese Möglichkeit basiert auf einem Modell, dass mit > 400 Millionen Text-Bild-Paaren trainiert wurde. Dadurch konnte das KI-Modell lernen, wie Bedeutung bildlich übersetzt wird. Auf dieser Basis können diese Modelle nun die Wörter und damit die Bedeutung eines Bildes vorhersagen, die in dem Bild steckt.
Die Bedeutung eines Bildes ist somit ebenfalls numerisch repräsentiert. Und wie bei Texten auch können somit große Mengen an Bildern hinsichtlich ihrer Bedeutung und ihrer Botschaft maschinell gruppiert, kodiert und quantitativ ausgewertet werden.
Das gilt natürlich auch für eine Sequenz von Bildern, d. h. für Videos. Videos enthalten aber neben der visuellen Information meist auch gesprochene Sprache. Hier hilft die Speech-to-Text Technologie. Wenn wir Siri oder Alexa Sprachbefehle geben, basiert dies auf der Fähigkeit der KI gesprochene Sprache zu verstehen. Auf dieser Basis kann also nicht nur die visuelle Information, sondern auch die gesprochenen Informationen maschinell und damit effizient in großer Anzahl verarbeitet werden. Sei es in Videos oder auch anderen Audio-Dateien wie beispielsweise die Anrufe im Call-Center. Liegt die gesprochene Sprache erst einmal als Text vor, kommt wieder die maschinelle Textverarbeitung zum Einsatz.
Maschinelle Verarbeitung der Bedeutung von geschriebener und gesprochener Sprache, Bildern und Videos ermöglicht eine effiziente und quantitative Analyse von Konsumenten, was ihnen wichtig ist, was sie bewegt und was sie sich wünschen, wie sie über meine Marke und den Wettbewerb reden. Diese Insights können mit Hilfe maschineller Verarbeitung dieser Sekundärdaten sehr effizient generiert werden.
Über Dr. Dirk Held

Kommentare (0)
Noch keine Kommentare zu diesem Artikel. Machen Sie gerne den Anfang!
Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.
Anmelden