Lukas Waidelich, Cauliflower Storytelling follows Storyunderstanding – Wie KI die Story in Ihren Textdaten findet

Über immer mehr Kanäle geben Kunden und Konsumenten Feedback zu Dienstleistungen, Produkten oder Marken. Eine kurze Rückmeldung nach der Lieferung eines Produktes, eine Sternebewertung nach der Fahrt in einem Taxi, ein Like in Sozialen Medien oder der Net Promoter Score im Online-Shop. Hinter jeder einzelnen dieser Bewertungen steckt eine persönliche Geschichte, ein Kundenerlebnis, das oft in Form einer Begründung, eines Kommentars oder einer Rezension beschrieben wird. Die Herausforderung für Unternehmen besteht darin, diese individuellen Texte in Gänze zu verstehen, um die größere Geschichte dahinter weiterzuschreiben. Neben der Analyse der Textdaten ist dabei vor allem die Aufbereitung der Ergebnisse die größte Herausforderung. In dem vorliegenden Text zeigen wir auf, wie Sie mit Unterstützung von KI die Story in Ihren Textdaten finden.
Was sind Textdaten?
Textdaten sind jede Aufzeichnung von Sprache in Textform. Dazu zählen Kommentare, Rezensionen, Mails, Foren, Websites, Artikel bis hin zu Servicehotlines, denn durch den Einsatz von Speech-to-Text Technologien ist theoretisch auch jedes gesprochene Wort erfassbar.
Welche Textdaten eignen sich zur Analyse?
Für die Analyse im Kontext Marktforschung können sowohl erhobene Texte (z.B. Likes & Dislikes, Bewertungsbegründungen oder spontane Assoziationen) als auch öffentlich zugängliche Textdaten (z.B. Rezensionen, Artikel oder Kommentare) interessant sein. Für beide Kategorien sollten Kriterien für die Analyse angesetzt werden. Lassen Sie uns zwei wichtige Kriterien genauer anschauen.
-
Qualität
Gerade weil es sich bei Textdaten um unstrukturierte Daten handelt, spielt Qualität bei der Analyse eine wichtige Rolle. Zur Analyse von Textdaten werden die inhaltlichen Bedeutungsstrukturen in Texten ebenso erfasst wie die strukturellen Zusammenhänge durch Grammatik. Das ist nur möglich, wenn inhaltliche Bedeutungen zugeordnet und strukturelle Merkmale erkennbar sind. Eine Vielzahl an Rechtschreibfehlern oder nicht vorhandene grammatikalische Strukturen mindern die Analysequalität deutlich.
Aber auch die Ernsthaftigkeit spielt eine wichtige Rolle. Ohne Kontext können auch Menschen nicht erkennen, ob eine Aussage ironisch oder sarkastisch ist. Für die maschinelle Auswertung von Text gilt das umso mehr. Die Texte sollten entsprechend ernsthaft zu einem Thema sein.
Zuletzt spielt auch die Ausführlichkeit bei der Qualität eine wichtige Rolle. In einem persönlichen Gespräch lässt sich Kontext aus dem Zusammenhang verstehen. Für die Analyse von Textdaten muss dieser Kontext innerhalb der Textdaten stattfinden, um erkennbar zu sein. Ausführlichkeit ist dabei nicht mit reiner Quantität gleichzusetzen, da eine höhere Wortanzahl allein noch nicht zu einem verbesserten Kontext führt.
Um eine adäquate Qualität zu erzielen sollten die Texte also schon bei der Erhebung entsprechend incentiviert werden durch interne Anreize wie zum Beispiel ein verbessertes Kundenerlebnis oder durch externe Anreize wie Gutscheine oder Aufwandsentschädigungen. Für öffentlich zugängliche Daten gilt es zu überprüfen, ob innerhalb der Textdaten eine Incentivierung mit Blick auf die Qualitätskriterien stattfindet. Konkretes Feedback zu einem Service-Problem führt im besten Fall zu einer Lösung des Problems und ist somit incentiviert. Die reine Nennung von einer Antwortoption als Antwort auf ein Gewinnspiel wird dagegen keine relevanten Textdaten produzieren. -
Möglichkeit der Zuordnung
Die Textdaten sollten klar einer Marke, einem Prozess, einer Dienstleistung, einem Erlebnis, einer Bewertung oder einem Produkt zuzuordnen sein. Nur so lassen sich Ableitungen aufgrund der Daten treffen. Im Gegensatz zu einer gestellten Frage an eine spezifisch definierte Zielgruppe, lässt sich immer eine Aussage in Bezug auf den Anteil von Insgesamt treffen. Bei einem offenen Text kann jedoch nie davon ausgegangen werden, dass der Text einen klar definierten Anteil von der Gesamtmeinung eines Menschen abbildet oder diese Meinung auf einer Skala abbilden kann. Deshalb ist der klare Bezug zu einer festen Größe unabdinglich. In der Erhebung kann diese Zuordnung durch eine klare Richtung in der Fragestellung erreicht werden. Was soll konkret beschrieben werden? Soll in eine wertende Richtung beantwortet werden (negativ oder positiv)? In Bezug auf die Nutzung öffentlicher Daten eignet sich deshalb vor allem die Begründung einer Bewertung besonders gut.
Die Story in den Textdaten
Um nun eine Story in Textdaten zu finden müssen die Strukturen in den Textdaten erfasst werden. Diese Strukturen lassen sich grundlegend in die drei Bereiche Inhalt, Stimmung und Zusammenhang unterteilen.
-
Inhalt
Die Herausforderung bei der inhaltlichen Analyse von Textdaten besteht in der Gruppierung von Themen zu Bedeutungsclustern, ohne dabei die relevanten Nuancen in Sprache zu verlieren. Unter Einsatz von statistischen Verfahren wie dem Topic Modeling oder Recurrent Neural Networks lassen sich inhaltlich ähnliche Aspekte zu Clustern zusammenfassen. Durch die Zählung dieser Cluster lassen sich dann Aussagen über das Vorkommen von bestimmten Themen treffen. Bei einer Bewertungsbegründung lässt sich auf diese Weise schnell herausfinden, welche Themen z.B. mit einer hohen oder niedrigen Bewertung häufig einhergehen.
-
Stimmung
Neben der inhaltlichen Ausgestaltung ist auch die Konnotation aus Textdaten abzuleiten. Häufig enthalten Texte Merkmale, die eine Stimmung abbilden. So lässt sich aus Text ableiten, ob ein Kommentar insgesamt negativ, neutral oder positiv ist. Dabei spielen einerseits eindeutig gerichtete Merkmale wie zum Beispiel "toll" oder "grauenvoll" eine Rolle aber auch weitere sprachliche Merkmale wie Verstärker, Satzzeichen und die Syntax eines Textes. Durch die Kombination mit den erfassten inhaltlichen Clustern lässt sich auch die Stimmung eines einzelnen Aspektes ableiten. Dieses Verfahren nennt man auch Sentimentanalyse, die sowohl durch korpus-basierte Ansätze (Einsatz von Lexika mit zu Wörtern zugewiesenen Stimmungswerten) als auch über statistische Ansätze abzubilden sind.
-
Zusammenhänge
Zuletzt bieten Textdaten noch die Möglichkeit Zusammenhänge zu analysieren. Welche Themen treten gemeinsam auf und hängen zusammen? Aber auch eine grammatikalische Rolle von einzelnen Themen lässt sich durch Zusammenhänge abbilden. Dadurch lassen sich Wirkungsrichtungen innerhalb der Zusammenhänge von Themen abbilden.
Durch Reduzieren und Verdichten zu Geschichten.
Um nun aber nicht nur vereinzelte Aspekte in Textdaten zu finden, sondern eine zusammenhängende Story, kommt es auf die narrative Visualisierung der Ergebnisse an. Dabei ist weniger mehr und vor allem leichter zu erfassen und in der Unternehmensorganisation weiterzuerzählen. Vier Learnings zur Visualisierung von Textdaten aus vier Jahren NLP (Natural Language Processing):
-
Komplexität reduzieren
Sprache ist komplex. Um die wichtigsten Merkmale in Texten zu erfassen ist Reduktion unabdinglich. Dabei werden manche Nuancen verloren gehen, manche eigenständige Themen mit anderen zusammengefasst werden und dabei werden auch Einzelmeinungen in den Hintergrund geraten. Nur so wird es möglich, sich einen Überblick über die Textdaten insgesamt zu verschaffen.
-
Hierarchien in Sprache nutzen
Sprache ist nuancenreich. Nur weil die Komplexität für einen Überblick reduziert wird, müssen die Nuancen nicht verloren gehen. Eine Struktur in Textdaten lässt sich in mehreren Hierarchien vollziehen. Hinter jedem Thema können Subthemen stehen. Jedes Subthema kann durch mehrere Begriffe ausgeführt werden. Und hinter jedem Begriff stehen am Ende originale Sätze. Durch die richtige Aufbereitung lässt sich so jederzeit von einer Overview zu einem Deep Dive wechseln.
-
Audience Fokus
Netzwerk Grafiken sehen spannend aus und ermöglichen es, eine sehr hohe Komplexität in eine moderate Komplexität zu reduzieren. Um eine Audience nicht abzuschrecken, sollte mit simpleren Grafiken gestartet werden, die einen guten Überblick vermitteln, um dann bei Bedarf mit komplexen Netzwerken in die Tiefe zu gehen.
-
Warum Wordclouds oft nicht geeignet sind
Wordclouds sind in Bezug auf Quantifizierung misleading. So beliebt Wordclouds auch sind, sie überbewerten die Wirkung von langen Wörtern gegenüber kurzen Wörtern. Deshalb sollten zur Quantifizierung von Themen klassische Grafiken wie ein Balkendiagramm eingesetzt werden. Wordclouds eignen sich dann aber vor allem in der Abbildung von dahinter liegenden Begriffen. Dabei kann eine genaue Quantifizierung ein wenig vernachlässigt werden.
Allein mit "Künstliche Intelligenz" kommt man bei Textdaten nicht weit. Achten Sie bei der Auswahl Ihres Analysetools deshalb vor allem auf die Methodik und die Visualisierung. Dann schält sich die Story wie von selbst aus den Textdaten und ist – weil sie offensichtlich ist – relativ einfach erzählt.
Über den Autor

Lukas Waidelich ist Gründer und Geschäftsführer von Cauliflower, einem KI-Startup für die automatisierte Analyse von Textdaten aus der Marktforschung. Cauliflower bietet eine SaaS, mit der Unternehmen und AnwenderInnen ohne manuellen Aufwand multilinguale Textdaten analysieren und visualisieren können. Der Fokus liegt dabei auf Einfachheit in der Bedienung, Geschwindigkeit und Qualität der Analyse und Verständlichkeit der Visualisierungen. Zuvor war er als Senior Consultant bei der Markenberatung Markendienst und hat Unternehmen im Bereich Analytics und Brand Management beraten.
/jre
Kommentare (0)
Noch keine Kommentare zu diesem Artikel. Machen Sie gerne den Anfang!
Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.
Anmelden