Textmining: Found in Translation - Das Ende von Babylon

Dr. Elena Michel und Marina Ehrenreich, rpc – The Retail Performance Company

Multilinguales Text Mining hilft globalen Unternehmen, ihre Kunden weltweit zu verstehen. Denn nichts ist für Marken so wichtig, wie genau auf Kundenwünsche eingehen zu können - rund um die Uhr, in allen Sprachen und allen Formaten.

Dr. Elena Michel und Marina Ehrenreich, rpc – The Retail Performance Company. (Bild: rpc – The Retail Performance Company)
Dr. Elena Michel und Marina Ehrenreich, rpc – The Retail Performance Company. (Bild: rpc – The Retail Performance Company)

Wer hat gesagt, dass Globalisierung immer leicht sein muss? Trotz Weltsprache Englisch gibt es noch immer rund 6.500 Sprachen. Allein 1,3 Milliarden Menschen sprechen Chinesisch als Muttersprache und 525 Millionen Hindi. Vor Ort nehmen wir gerne Hände und Füße zu Hilfe. Am Rechner aber geht das nicht, da zählt nur das, was Schwarz auf Weiß vorliegt: Beschwerden, Vorschläge, Terminwünsche – eine Herausforderung für Global Player. Nichts ist für Marken so wichtig, wie genau auf Kundenwünsche eingehen zu können. Rund um die Uhr, in allen Sprachen und allen Formaten: Vom einfachen Anruf beim Call-Center bis zum bösen Kommentar auf einer Vergleichsplattform.

Stündlich fallen Gigabyte an Informationen an. Wie aber lassen sich diese Datenfluten sinnvoll verwalten – und wie daraus die richtigen Schlüsse ziehen? Multilinguales Text Mining lautet die Antwort. In den nächsten Jahren wird der Markt derartiger automatisierter Textanalysen auf mehrere Milliarden Dollar wachsen, Tendenz steigend.

Nur ein Fünftel aller Daten liegt strukturiert vor

Schnell und effizient auf Beschwerden zu reagieren, ist inzwischen das wahre Erkennungszeichen für Global Player. Das Problem: Nur rund ein Fünftel aller Daten liegen in strukturierter Form vor, beispielsweise als Tabellen oder Excel-Formulare. 80 Prozent bestehen aus irgendwelchen E-Mails, Word-Dateien, PDF-Dokumenten, Power-Point-Folien und anderen Textformaten. Dazu kommen tonnenweise Audiofiles, Videos, Voice-Memos oder Bilddateien. Ein unglaublicher Datenschatz treibt da – weitgehend unbekannt – jenseits unseres Wahrnehmungshorizonts. Ein Dateneisberg. Wer diesen Schatz hebt, hat einen strategischen Vorteil. In den nächsten Jahren geht es um Verbraucherdaten, sagt Dr. Horst Florian Jaeck, Partner des Bereichs Data Analytics: "Wer diese strategisch nutzt, gewinnt."

(Bild: rpc – The Retail Performance Company)
Nur ein Fünftel aller Daten liegt strukturiert vor. (Bild: rpc – The Retail Performance Company)

Datenschätze heben

Zunächst müssen wir unter die Oberfläche des Dateneisberges blicken. Ein Schlüssel dafür liegt darin, vorliegende unstrukturierte Textdateien zu analysieren und zu klassifizieren. Doch Terabyte an Daten manuell durchzugehen, überfordert selbst die geübteste Servicemannschaft. Das führt dazu, dass nur ein Bruchteil der Beschwerden überhaupt ausgewertet wird. Call-Center-Agenten bewerten diese zudem subjektiv bis willkürlich. Das Problem verschiebt sich nur. Im Headquarter sitzen immer mehr Spezialisten, die nichts anderes tun, als beispielsweise Beschwerden zu kategorisieren. Und wer spricht schon Hindi, wenn es gebraucht wird? Oder Italienisch? Da kommt beispielsweise diese E-Mail: "La mia auto è in officina da 3 settimane ormai, ma non so nemmeno cosa abbia causato il problema al cambio“ (Mein Auto steht nun seit drei Wochen in der Werkstatt, aber ich weiß immer noch nicht, was das Getriebeproblem verursacht hat.) Ist es eine Beschwerde? Oder nur eine Feststellung? Geht es um das Getriebe oder um die Dauer der Reparatur? Und gibt es vielleicht einen Zusammenhang mit dieser anderen E-Mail: "Rasselgeräusche bei geringen Drehzahlen"?

Texte zu klassifizieren, bindet viele Ressourcen. Hier schlägt die Stunde für automatisiertes Text Mining, das Texte sinnvoll kategorisiert, also vergleichbare Inhalte gleichen Sachverhalten zuordnet.

  1. Im ersten Schritt werden die Rohdaten bereinigt (Zahlen, Satzzeichen und Leerzeichen entfernt sowie Großbuchstaben in Kleinbuchstaben umgewandelt).
  2. Die sogenannte Tokenisierung zerlegt Sätze (oder Zeichenfolgen) in Schlüsselwörter. Token können Wörter, Ausdrücke oder ganze Sätze sein. Dies eröffnet den Weg für weiteres Text Mining.
  3. Nach der Rechtschreibprüfung werden Stoppwörter entfernt, also Wörter, die keinen Mehrwert für den Informationsgehalt der Aussage besitzen.
  4. Stemming führt verschiedene Wortvarianten auf einen gemeinsamen Stamm zurück, etwa "gegangen" und "ging" zu "gehen". Nun wird die Häufigkeit dieses Stamms pro Dokument berechnet – und dadurch seine Relevanz. Durch die TF-IDF (Term Frequency – Inverse Document Frequency) entsteht die DTM (Document Term Matrix). Sie ist so etwas wie der Schlüssel zum Textverständnis.

Nach der oben dargestellten Aufbereitung der Daten erfolgt die eigentliche Klassifikation. Hierbei wird entweder eine regelbasierte Klassifizierung durchgeführt, oder es wird ein typisches Klassifikationsmodell verwendet, zum Beispiel Random Forest, C5.0, SVM (Support Vector Machine) oder Neuronale Netze.

Alle für einen?

Was aber, wenn Texte in verschiedenen Sprachen vorliegen? Hier kommt Multilinguales Text Mining zum Einsatz. Bei eindeutigen technischen Begriffen und leicht verständlichen Sachverhalten ist es sinnvoll, verschiedene Sprachen unter einer "leading language" – in der Regel Englisch – zusammenzuführen und dann erst zu bearbeiten. Dazu braucht es eine Terminologie-Verwaltungssoftware sowie ausgezeichnete Übersetzungswerkzeuge, die alle Sprachen beherrschen und in guter Qualität übersetzen.

Bei komplexen, uneindeutigen Sachverhalten oder Texten mit vielen Fachbegriffen lohnt es sich, sprachspezifisch vorzugehen, mit je eigenen Regeln und Analyse-Ressourcen. Spätestens nach der Tokenisierung muss die Sprache jedes Dokuments definiert werden, denn das Entfernen von Stoppwörtern sowie das Stemming erfolgen sprachspezifisch. Es ist empfehlenswert, alle weiteren Schritte sowie die Modellierung des Klassifikationsmodells sprachspezifisch (und auch marktspezifisch) auszuführen. Diese Ergebnisse können wiederum zur Anreichung von strukturierten Daten genutzt werden und stehen somit für weitere Analysen zur Verfügung.

Auszug Beispieldatensatz mit unstrukturierten Daten in verschiedenen Sprachen, sowie erkannter Sprache. (Bild: rpc – The Retail Performance Company)

Trainieren lohnt sich

Zurück zu unseren beiden Beschwerde-E-Mails. Die erste "La mia auto è ..." dreht sich eben nicht um das Getriebe, sondern um die Dauer der Reparatur. Das Analyse-Tool vergibt daher das Label "Repair duration" – und nicht etwa "Technical Problem" wie bei der zweiten E-Mail ("Rasselgeräusche bei geringen Drehzahlen"). Beide Beschwerden lassen sich nun spezifisch beantworten. Beispielsweise geht eine nette E-Mail an Besitzer Nummer eins – und eine zweite an die Werkstatt, die den Besitzer bitte anrufen soll. Spracherkennung und die Aufteilung nach relevanten Fragestellungen sorgen also dafür, dass verschiedenste Wünsche und Beschwerden schnell und präzise bearbeitet und "persönlich" beantwortet werden.

Grundvoraussetzungen für ein erfolgreiches Text Mining sind freilich eine gute Datenqualität der Dokumente sowie ein ausreichendes Datenvolumen. Falls nur wenige Dokumente vorliegen, empfiehlt es sich, die Texte in eine Hauptsprache zu übersetzen, da sonst nicht genügend Trainings- und Testdaten für das Klassifizierungsmodell vorhanden sind.

Das Ende von Babylon

Die Anwendungsmöglichkeiten von Text Mining sind mannigfaltig. Bis zu 95 Prozent der vorhandenen Textdateien in Unternehmen könnten automatisiert ausgewertet werden – allerdings analysieren Unternehmen bislang nur einen Bruchteil davon; Langzeitbeobachtungen finden teilweise gar nicht statt. Durch die Automatisierung der Kategorisierungen ergibt sich eine Zeitersparnis von bis zu 80 Prozent gegenüber einer manuellen Tätigkeit. Das führt nicht nur zu erheblichen Kosteneinsparungen bei der Nachbearbeitung, viel wichtiger ist, dass Unternehmen mögliche Pannen und Beschwerden viel früher erkennen und mögliche Shitstorms vermeiden.

In Zukunft können Texte aller Sprachen vollautomatisiert kategorisiert werden. Service-Mitarbeiter konzentrieren sich dann ganz auf die Wünsche ihrer Kunden und kümmern sich um echte Probleme. Text Mining ermöglicht sogar ein weltweites Social Media Monitoring: Wie und was wird weltweit über das Unternehmen gesprochen? Was sind hier die Hauptthemen? Das hilft, Kunden und Marken weltweit mit geringem Aufwand besser zu vernetzen. Denn nichts ist so zerstörerisch wie Kunden, die sich nicht ernstgenommen fühlen. Und nichts so wertvoll wie zufriedene Nutzer.

Zur Person:

Dr. Elena Michel ist Managerin im Bereich Data Analytics bei rpc – the Retail Performance Company und berät Kunden in den Bereichen Data und Text Mining. Seit mehr als 10 Jahren arbeitet Elena Michel im Data Science Umfeld, insbesondere in der Automobilindustrie sowie der Medienbranche. Elena Michel leitete erfolgreich zahlreiche Kundenprojekte in diesem Umfeld und verantwortete das Business Field "Data Insights and Text Analytics" in einer namhaften IT- und Managementberatung. Zuvor studierte Elena Michel Betriebswirtschaftslehre und promovierte an der Ludwig-Maximilians-Universität München zum Thema "The Marketing-Finance Interface: Understanding the Interdependencies".

Marina Ehrenreich ist Consultant in der Data Analytics Line bei rpc – The Retail Performance Company. Sie begleitet und berät Kunden – zumeist aus der Automobilindustrie – rund um das Thema Data Science mit fachlichem Fokus auf Data und Text Mining. Seit knapp acht Jahren befasst sich Marina Ehrenreich mit Data Analytics Methoden und Algorithmen, wobei ihre Wurzeln in der Statistik liegen. Bereits während ihres Wirtschaft- und Sozialstatistik Masterstudium wählte sie Knowledge Discovery in Databases und Text Mining als ihre Schwerpunktthemen.

Veröffentlicht am: 28.05.2019

 

Kommentare (0)

Keine Kommentare gefunden!

Neuen Kommentar schreiben

Kommentare geben ausschließlich die Meinung ihrer Verfasser wieder. Die Redaktion behält sich vor, Kommentare nicht oder gekürzt zu veröffentlichen. Das gilt besonders für themenfremde, unsachliche oder herabwürdigende Kommentare sowie für versteckte Eigenwerbung.

Über marktforschung.de

Branchenwissen an zentraler Stelle bündeln und abrufbar machen – das ist das Hauptanliegen von marktforschung.de. Unser breites Informationsangebot rund um die Marktforschung richtet sich sowohl an Marktforschungsinstitute, Felddienstleister, Panelbetreiber und Herausgeber von Studien, Marktdaten sowie Marktanalysen als auch an deren Kunden aus Industrie, Handel und Dienstleistungsgewerbe.

facebook twitter google plus