Textanalyse und Verarbeitung offener Angaben: Herausforderungen und Grenzen

Christopher Harms & Sebastian Schmidt, SKOPOS Research

Offene Angaben in Befragungen, aus dem Web gesammelte Foren-, Blog- oder Facebook-Beiträge: Freitexte sind eine wichtige und reichhaltige Quelle für Insights in der Marktforschung – trotz begrenzter Skalierbarkeit in ihrer Auswertung. Werden offene Texte durch Marktforscher, Aushilfen oder Externe manuell codiert, steigen Aufwand und die damit verbundenen Kosten schnell an. Für große Projekte oder gesammelte Daten aus dem Web wird die manuelle Verarbeitung schnell unwirtschaftlich. Ebenso spielt auch der Faktor Zeit eine immer wichtigere Rolle: Live-Ergebnisse sind schlicht nicht möglich, wenn auf eine manuelle Codierung gewartet werden muss.

©SKOPOS

Christopher Harms & Sebastian Schmidt, ©SKOPOS

In Zeiten von maschinellem Lernen und künstlicher Intelligenz gibt es viele große Unternehmen und kleine Start-Ups, die gerade für die Verarbeitung von Texten Dienstleistungen und Produkte bewerben. Doch was bringen diese Tools für die Praxis in der Marktforschung? Konfrontiert mit immer größeren Stichproben und dem Wunsch unserer Kunden, offene Angaben in Befragungen bei geringen Kosten nutzbar zu machen, haben wir uns verschiedene Lösungen angesehen und verglichen. Diese Erfahrungen wollen wir im Folgenden teilen und Herausforderungen bei der Umsetzung aufzeigen.

Wenn es um "Natural Language Processing" (NLP; der Fachbegriff für die Analyse geschriebener oder gesprochener Texte im Bereich KI/Machine Learning) geht, spielen auch die ganz großen Anbieter mit: Seit einiger Zeit bieten Microsoft, Google und IBM Schnittstellen zu ihren "Cognitive Services" an, über die Texte in der Cloud analysiert werden können.

Hinsichtlich der angebotenen Funktionen unterscheiden sich Google Cloud, Microsoft Azure und IBM Watson nur geringfügig.

Im Wesentlichen bieten alle Anbieter zur Verarbeitung von geschriebenen Texten ähnliche Lösungen an:

  • Übersetzung: Die Qualität von automatischen Übersetzungen hat in den letzten Jahren deutlich zugenommen und ermöglicht einen ersten Überblick über Antworten aus internationalen Studien.
  • Key Phrase Extraction: Die Key Phrase Extraction sucht nach Begriffen, die besonders relevant für den Inhalt der Texte sind.
  • Named Entity Recognition (NER): Gerade in gesammelten Web-Daten wie Blog- oder Forenbeiträgen ist es von Interesse, über welchen Anbieter oder welches Produkt gesprochen wird. Mittels Named Entity Recognition werden die relevanten Namen im Text markiert und können zum Kategorisieren verwendet werden. Ein weiteres Einsatzgebiet ist die Entfernung von sensiblen Informationen (zum Beispiel Mitarbeiternamen) aus Befragungen.
  • Sentiment-Analysen: Durch Sentiment-Analysen soll automatisiert beurteilt werden, wie positiv oder negativ ein Text ist und dadurch Rückschlüsse auf die Stimmung des Autors gezogen werden.
  • Klassifikation von Texten: Die Allzweck-Waffe des Maschinellen Lernens. Texte können automatisch Kategorien zugeordnet werden.
  • Syntaxanalyse: Hiermit werden Sätze in Einzelteile zerlegt und Satzstrukturen aufgedeckt. Dadurch kann in Texten beispielsweise erkannt werden, worauf sich ein Verb oder Adjektiv bezieht. Für die Praxis ist das insbesondere relevant für weiterführende Analysen auf Grundlage der Syntaxanalyse.

©SKOPOS

Beispiel für eine Syntaxanalyse ©SKOPOS

 

Viele weitere Lösungen stützen sich auf diese grundlegenden Ansätze des Natural Language Processing und kombinieren einzelne Bausteine. So kann beispielsweise vor der automatisierten Klassifikation von Texten die Sprache aus unterschiedlichen Befragungen vereinheitlicht werden.

Diese Plattformen bieten primär Black-Box- Lösungen an, die für möglichst viele verschiedene Einsatzgebiete funktional sein sollen. Das heißt konkret:

Der Anwender kann seine Daten einfach in den Service hochladen und erhält am Ende ein Ergebnis. Diese Allgemeingültigkeit bedeutet jedoch häufig, dass sie nicht ohne Weiteres für den Einsatz im Befragungskontext geeignet sind.

Denn gerichtete, themenspezifische Fragen, setzen ein ganz anderes Kontextwissen voraus als die Analyse von beispielsweise wenig tiefgängigen Twitter-Beiträgen. Solches Kontextwissen fehlt den vortrainierten Allround-Lösungen. Deshalb müssen solche Services in der Praxis häufig noch auf die eigene Fragestellung angepasst werden. Syntaxanalysen, die Texte in ihre Bestandteile zerlegen, können genutzt werden, um spätere Analysen anzureichern. Beispielsweise dadurch, dass Adjektive in Zusammenhang mit bestimmten Substantiven gebracht werden.

Sentiment-Analysen bieten ebenfalls erste Hinweise auf Stimmungen in Texten, eignen sich in der Praxis jedoch noch nicht für eine Analyse von einzelnen Antworten. Für individuelle Interpretationen sind die Ergebnisse der Verfahren häufig zu ungenau.

Im Rahmen von Befragungen stehen zumeist ohnehin zusätzliche, quantitative Informationen bereit (zum Beispiel die Gesamtzufriedenheit oder Weiterempfehlungsbereitschaft), die sich sinnvoller mit einer inhaltlichen Analyse kombinieren lassen, als die Ergebnisse einer oberflächlichen Sentiment-Analyse. So lässt sich beispielsweise analysieren, welche Keywords oder Themenkategorien besonders positiv oder negativ konnotiert sind.

Dabei ist die Klassifikation von Texten insbesondere für die Codierung von offenen Angaben ein hilfreiches Werkzeug. Die Plattform-Anbieter stellen häufig bereits vor-trainierte Modelle zur Verfügung: In der Google Cloud sind beispielsweise 700 Kategorien bereits hinterlegt. Auch dies kann für einen ersten Überblick über offene Antworten hilfreich sein – für eine echte Codierung mit Code-Plan hingegen, sind diese Out-of-the-Box-Modelle ungeeignet. Bei einigen Anbietern, zum Beispiel Microsoft Azure, können auch eigene Modelle trainiert und so der Maschine ein Code-Plan beigebracht werden. Dieses manuelle Training setzt jedoch eine Vielzahl bereits vorcodierter Antworten voraus. Eine "general purpose" KI, die allein vom Code-Plan ausgehend in der Lage wäre, Antworten korrekt dem Plan zuzuordnen, gibt es bisher noch nicht.

Es gibt am Markt einige Start-Ups, die weitergehende Lösungen anbieten und fertige Analysen für den Produktivbetrieb versprechen. Unserer Erfahrung nach können diese Angebote bisher jedoch nur sehr selten den hohen Qualitätsanforderungen der Marktforschung genügen oder erfordern Trainingsmengen in Umfängen die über das, was in Ad-Hoc-Befragungen üblich ist, weit hinausgehen.

Lösungen, die besonders auf die Bedürfnisse von Marktforschern zugeschnitten sind, gibt es bisher nur sehr wenige.

Erste Ansätze finden sich dabei in der teilautomatisierten Codierung von offenen Antworten.

Ganz aktuell ergibt sich noch eine weitere Herausforderung bei der Nutzung von fertigen Cloud-Dienstleistungen: Nicht zuletzt durch die DSGVO muss besonders darauf geachtet werden, wem und unter welchen Bedingungen die Daten zur Analyse weitergegeben werden. Der Teufel kann dann auch im Detail liegen: So behalten sich manche Dienstleister das Recht vor, die übertragenen Daten zu speichern und für eine Weiterentwicklung der Algorithmen, beispielsweise das Training von neuen Verfahren, zu verwenden. Und die Frage nach dem physischen Speicherort der Daten ist dabei noch gar nicht berücksichtigt. Hier ist es wichtig, die Angebote genau zu prüfen und entsprechend der Vorgaben der DSGVO mit Kunden und Anbietern eine entsprechende Vereinbarung zu schließen, sowie die Befragten über die Weitervermittlung der Daten zu informieren.

Unser Fazit? Machine Learning ist ein Feld, das sich rasant entwickelt und mit immer neuen und besseren Algorithmen auf sich aufmerksam macht. Natural Language Processing ist eine der schwierigsten Disziplinen in diesem Bereich.

Bisher sind solche Algorithmen zu echtem Textverständnis, welches Kontext und Vorwissen mit einbezieht, heute noch nicht in der Lage. Die Angebote, die es auf dem Markt gibt, sind hilfreiche Tools, die die Arbeit von Marktforschern vielleicht erleichtern können, häufig aber auch eine längere Anpassungs- und Einarbeitungsphase benötigen – ganz wie ein neuer menschlicher Mitarbeiter. Für unsere Praxis als Marktforscher greifen wir immer wieder auf diese Kiste zurück und ziehen einzelne Ansätze heraus, um sie in unsere Projektprozesse zu integrieren. Beispielsweise nutzen wir automatisierte Textübersetzungen und Syntaxanalysen, um einen ersten Überblick über offene Angaben zu erhalten, bevor wir mit einer manuellen Codierung ins Detail gehen. Auch für interaktive Dashboards, die Quasi-Live-Daten visualisieren, nutzen wir automatisierte Textanalysen, die einen ersten Eindruck aus den offenen Antworten geben.

Die "Out-of-the-Box"-Lösungen sind in manchen Bereichen (zum Beispiel Übersetzungen) unverzichtbar und in anderen Szenarien zu starr und recht einfach durch manuelle Programmierarbeit ersetzbar (zum Beispiel Syntaxanalysen). Es ist eben noch ein Feld in den Kinderschuhen, das primär von Informatikern und Data Scientists besetzt wird und noch wenig von Anwendern aus der Praxis. Der Austausch zwischen Praktikern und den Ingenieuren solcher Algorithmen verspricht wichtige Entwicklungen, die schon in naher Zukunft zu wertvollen Lösungen und Helferlein reifen könnten.

Die Autoren:

Christopher Harms beschäftigt sich als Consultant Research & Development bei SKOPOS ständig mit neuen Marktforschungsmethoden und -tools. Dabei kombiniert er seinen Hintergrund als Psychologe mit umfangreichen Statistik- und Machine-Learning-Kenntnissen und treibt innerhalb der SKOPOS Group die Digitalisierung voran.

Sebastian Schmidt verantwortet als Senior Research Executive den Bereich Research & Development der SKOPOS Group. Dort beschäftigt er sich mit Innovationen in der Markt- und Meinungsforschung, und begleitet die strategische Ausrichtung. Sein besonderes Interesse gilt dabei der Online-Forschung. Hier referiert er seit 2012 als regelmäßiger Speaker auf nationalen und internationalen Konferenz

Interessiert am Thema Textanalysen?

Kommentare (0)

Keine Kommentare gefunden!

Neuen Kommentar schreiben

Kommentare geben ausschließlich die Meinung ihrer Verfasser wieder. Die Redaktion behält sich vor, Kommentare nicht oder gekürzt zu veröffentlichen. Das gilt besonders für themenfremde, unsachliche oder herabwürdigende Kommentare sowie für versteckte Eigenwerbung.

Über marktforschung.de

Branchenwissen an zentraler Stelle bündeln und abrufbar machen – das ist das Hauptanliegen von marktforschung.de. Unser breites Informationsangebot rund um die Marktforschung richtet sich sowohl an Marktforschungsinstitute, Felddienstleister, Panelbetreiber und Herausgeber von Studien, Marktdaten sowie Marktanalysen als auch an deren Kunden aus Industrie, Handel und Dienstleistungsgewerbe.

facebook twitter google plus