Maurice Gonzenbach, Caplena Textanalyse in der Praxis – Evolution schlägt Revolution

Dass KI-basierte Textanalyse en vogue ist, generiert wohl in keiner Publikation mehr Schlagzeilen. Doch obwohl in den Kathedralen der Tech-Giganten seit nun bald einer halben Dekade die goldene Zukunft der Automatisierung gepredigt wird, hat diese noch längst nicht in allen Büros unserer Breitengrade Einzug gehalten. Die Empfänglichkeit für die digitale Kunde kann dabei in drei Gruppen eingeteilt werden:
- Die Fanatiker: Nehmen alle Versprechen der Verkaufsbroschüren als bare Münze, haben in der Realität jedoch kaum je mit KI-Software zu tun gehabt;
- Die Pragmatiker: Erkunden die schöne neue Welt mit offenen Augen und sind experimentierbereit, lassen den gesunden Menschenverstand aber auch nicht missen;
- Die Schriftsetzer: Können dem Fortschritt grundsätzlich wenig abgewinnen oder wurden von Marketingversprechen einmal enttäuscht und setzen nun wieder auf die bewährten Methoden Gutenbergs.
Der nachfolgende Erfahrungsbericht zeigt in praktischer Weise auf, wie Kilian Hughes (ein Typus II), tätig als Director Research & Insights beim Streaming-Anbieter Joyn, die Herausforderung einer automatisierten Feedback-Pipeline angegangen und gemeistert hat.

T0 (Zeitpunkt Null): Auswahl einer Software-Lösung
Die Segel sind gehisst, der Kurs gesetzt: Es gilt, das althergebrachte Kodieren oder Kategorisieren zu automatisieren. Doch mit wessen Programm begibt man sich in das Abenteuer? Es gibt nicht die für alle richtige Plattform, doch einige praktische Dos and Don’ts bei der Evaluation:
Do | Don't | Warum |
Empirische Tests | Checklisten | Software ist kein Stapelgut, welches wie Schrauben in standardisierter Form anhand einiger Merkmale verglichen werden kann. Daher sind komplizierte Checklisten oder gar Bewertungsmatrizen meist nicht zielführend. Heisst natürlich nicht, dass gewisse Ausschlusskriterien wie z.B. 2FA zur Sicherheit oder die Unterstützung spezifischer Sprachen unsinnig wären. Der Nutzen kann aber nur empirisch evaluiert werden: Nach der Erstellung einer Shortlist von 2-3 Programmen werden diese anhand konkreter Projekte getestet und dann verglichen. |
Test mit «Low-Hanging-Fruit» beginnen | Test nur mit komplexen Daten durchführen | Spoiler: Viele Lösungen werden mit den schwierigsten Daten Mühe haben. Es ist jedoch nicht zielführend erst mit der Automatisierung zu beginnen, wenn die perfekte Lösung gefunden ist. Auch wenn nur 50% der Projekte vollständig durch die KI abgewickelt werden können, ist das schon ein großer Gewinn.Ebenfalls ist die zum Testen eingesetzte Zeit so besser investiert: Funktioniert die Lösung bei den «Low-Hanging-Fruit» nicht, kann man die Lösung ausschließen. Funktioniert sie bei den schwierigsten Daten nicht, hat man kaum Informationen gewonnen. |
F1 Score oder Vergleich der Aussagekraft | Arbiträre «80% Genauigkeit» Metrik | Die Kodierung ist technisch gesehen ein Multi-Label (binary) Classification Problem. Die Verteilung (Code kommt in einer Nennung vor vs. Code kommt nicht vor) weist jedoch oftmals eine hochgradig schiefe Verteilung auf, wodurch Metriken wie «Genauigkeit» praktisch Nichts aussagend sind. Besser geeignet ist der F1-Wert (Übereinstimmung KI – Mensch), welcher dann mit dem Intra-Kodierer F1 (Übereinstimmung Mensch – Mensch, welche ja auch nicht perfekt ist) verglichen werden sollte. Alternativ (und diskutabel besser) kann auch die Aussagekraft des Resultats verglichen werden. Beispiel: Die KI sagt 30% der Nutzer*innen finden die Navigation der App unklar, die händische Kodierung kommt auf 34%. Ändert dies die Aussage der Studie? Sind die wichtigsten Treiber die gleichen geblieben? |
Im konkreten Fall ging es Joyn darum, App-Reviews auswerten zu können. Dazu hat Kilian verschiedene Anbieter, darunter auch Caplena, gegeneinander antreten lassen. Das entscheidende Feature für Kilian war schlussendlich die Flexibilität und Lernfähigkeit der Lösung von Caplena: "Die Möglichkeit trotz vollautomatischer Analyse auch händisch Änderungen vornehmen zu können, sowie die KI auf unsere Bedürfnisse trainieren zu können, war entscheidend. Damit ist tatsächlich eine effiziente Zusammenarbeit zwischen Mensch und Maschine möglich.”
T0 + 4 Wochen: Erste Iteration der Nutzung
Die Evaluation ist gemacht und ein Favorit erkoren, doch die nächste Untiefe wartet bereits: Da die Applikation nicht alle Eventualitäten abdecken kann und auch die internen Prozesse noch nicht in Blei gegossen sind, wirft man manchmal lieber nochmals den Anker. Oft steckt hinter diesen Lähmungserscheinungen die Vorstellung, bei einer falschen Entscheidung jahrelang gebunden zu sein. Doch ein Softwarevertrag ist kein Bund fürs Leben (und falls dies ein Anbieter nicht verstanden haben sollte, wäre dies ein guter Grund für ein Checklisten-Ausschlusskriterium).
Kilian meint dazu: "Starte schnell, iteriere schnell. Gleich von Anfang an die eierlegende Wollmilchsau bauen zu wollen führt meist zu endlosen Projekten mit unausgegorenen Lösungen."
Ist die Software mal im Einsatz, gilt es Erfahrungen zu sammeln. Insbesondere will man in den ersten Wochen herausfinden, welche Schritte zeitraubend oder fehleranfällig sind, um den Prozess daraufhin gezielt verbessern zu können.
Bei Joyn sah der Prozess initial folgendermaßen aus:
- Erstellung des Codebuchs durch die Kombination eines durch die Applikation zur Verfügung gestellten Templates sowie eigenen Codes;
- Wöchentliches Hochladen von neuen Reviews aus CSV-Daten;
- Überprüfung der durch die KI automatisch kodierten Nennungen;
- Export der Daten zur Weiterverarbeitung in Tableau.
T0 + 3 Monate: Optimierung
Das Schiff hat Fahrt aufgenommen und die Crew ist eingespielt, nun kann auf Leistung getrimmt werden.
Bei Joyn war der erste Angriffspunkt eindeutig: Das Daten-Handling mit dem manuellen Herumschieben von CSV-Dateien war sowohl zeitaufwändig als auch fehleranfällig. Daher band Kilians Team die Datenquellen (Google App Reviews, Usersnap & Instabug) mittels des Dienstes Zapier (welcher als Verbindungsstück zwischen über 3000 Apps dient) an die Caplena API an. Sobald nun Feedback abgegeben wird, wird dieses direkt in die Textanalyse-Applikation eingespeist und kodiert.
Als weitere Optimierungsmaßnahmen reduzierten sie die händischen Überprüfungen: Da die KI immer besser im Kodieren der Nennungen wird, müssen unterdessen nur noch sehr wenige Nennungen nachgebessert werden.
Insgesamt benötigt das Team damit nur noch wenige Stunden pro Monat, um die über 800 wöchentlichen Feedbacks sauber auszuwerten.

Fazit & Zukunft

In einem Punkt muss dem Credo der Schriftsetzer rechtgegeben werden: Die neuen Textanalyse-Methoden sind noch nicht perfekt. Dies gilt wohl auch für die erwähnten Beispiele von Joyn und Caplena.
Doch glücklicherweise weht der Wind kräftig in Richtung Fortschritt, wobei dieser in drei Bereichen erzielt werden kann:
- Qualität der KI & Prozesse: Hier sind die Software-Entwickler*Innen gefordert – und ich kann Ihnen versichern, dass wir nicht faulenzen :) ;
- Stärkere Ausrichtung auf Erkenntnisse: Oft ist die 3. Nachkommastelle oder die 600ste genannte Marke schlicht nicht relevant. Hier kann oft ein signifikanter Unterschied zwischen Marktforscher*Innen und anderen Berater*Innen in der Verwendung von Tools beobachtet werden. Ein intensiver Dialog zwischen Software-Herstellern sowie Marktforscher*Innen bietet wohl noch viel Raum für zielgerichtetere Anwendungen;
- Optimierung von Fragebögen: Die beste KI hilft nichts, wenn die Aussagen unklar oder nicht vorhanden sind. Es braucht Forscher mit Mut zu kurzen, knackigen Fragebögen mit konzisen, klar formulierten Fragen. Doppelte Verneinungen bereiten nicht nur der KI Bauchschmerzen.
Die Reise geht weiter.
Über den Autor:

Maurice Gonzenbach ist ein Unternehmer, der daran arbeitet, die neusten Errungenschaften im Natural Language Processing in die Marktforschung zu bringen. Nach seinem «Computational Science & Engineering» Studium an der ETH, gründete er 2017 zusammen mit einem Geschäftspartner die Firma Caplena, welche Textanalyse-Software entwickelt und mittlerweile über 70 Firmen weltweit zu ihren Kunden zählt. Daneben hält er Gastvorlesungen in mehreren CAS Kursen und gibt Trainings für Industrieverbände im Textanalyse Bereich.
Weitere Informationen zum Unternehmen auf marktforschung.de:

Kommentare (0)
Noch keine Kommentare zu diesem Artikel. Machen Sie gerne den Anfang!
Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.
Anmelden