Black Box KI: Worauf Sie beim Einsatz achten sollten

André Lang, Insius UG

KIs erlernen ihr gezeigtes Verhalten durch Maschinelles Lernen (ML). Da später kaum festzustellen ist, was effektiv gelernt wurde, muss dieser Prozess genau geplant und kontrolliert werden. Was dabei alles schiefgehen kann und welche Punkte Sie bereits vor dem Einsatz von KI prüfen können, um Fallstricke zu vermeiden, klärt André Lang, Dipl.-Wirtschaftinformatiker und geschäftsführender Gesellschafter der Insius UG.

Dossier Black Box KI Lange Insius Beitrag (Bild: Insius UG)

KI* als Alchemie

*Theoretisch ist Machinelles Lernen ein Teilbereich der KI. In der Praxis werden die Begriffe Machinelles Lernen und KI aber oftmals gleichbedeutend verwendet, so auch im folgenden Artikel.

Schon 2017 formulierte Ali Rahimi, ein KI-Entwickler bei Google, die Kritik, dass Maschinelles Lernen inzwischen Ähnlichkeiten mit Alchemie habe. Anstatt sich die Frage zu stellen, wie und was eine KI gelernt hat und darauf basierend bessere KIs zu bauen, werde mehr Aufwand in das Feintuning von Parametern und Workarounds für Fehler gesteckt. Der wissenschaftliche Ansatz, sich zunächst mit einfachen Experimenten Zusammenhänge zu erschließen und diese unter Gewinn neuer Erkenntnisse schrittweise auf komplexere Probleme zu übertragen, tritt dabei völlig in den Hintergrund. So erreicht man zwar immer bessere Ergebnisse, die allerdings weder reproduzierbar noch erklärbar und mitunter nicht einmal stabil sind. Der zusätzliche Erkenntnisgewinn solcher Optimierungen strebt gegen Null.

Die Kritik an einer methodisch wenig reflektierten, auf eine (scheinbare) Optimierung der Ergebnisse gerichtete Sicht lässt sich nicht nur für die Forschung, sondern auch für die konkrete Anwendung, formulieren. Mit Python, Tensorflow und einer Vielzahl neuer Tools lassen sich inzwischen mit minimalem Aufwand eigene Modelle trainieren. Auch bereits fertig trainierte Modelle, wie mit Google BERT erstellte Sprachmodelle, stehen frei zur Verfügung.

Der einfache Zugang zu Methoden und Modellen ist Fluch und Segen zugleich. Zum einen ermöglicht er erfahrenen Anwendern die schnelle Entwicklung von Prototypen und Neueinsteigern einen leicht verständlichen ersten Zugang. Zum anderen bleibt das methodische Verständnis auf der Strecke, weil es keine zwingende Voraussetzung mehr für die Anwendung der Werkzeuge ist. Zugleich werden – bewusst oder unbewusst – übersteigerte und nicht erfüllbare Erwartungen an die Fähigkeiten der KI gestellt, die umso höher ausfallen, je geringer die Methodenkenntnis ist.

Ist die KI hilfreich, gefährlich – oder beides?

Den resultierenden KI-basierten Systemen und deren Ergebnissen ist dabei zunächst kaum anzusehen, ob es sich um eine schnell zusammengestrickte Pipeline oder das Ergebnis einer genauen Problemanalyse, Modell- und Parameterauswahl sowie ausführlicher Tests handelt.

Die Effekte schlechter Modellierung zeigen sich dann auch erst später. In manchen Anwendungsfällen sind sie vernachlässigbar, da offensichtlich, wenig schädlich und einfach korrigierbar: Beispielsweise beim Einsatz einer KI zur Klassifikation und Weiterleitung eingehender E-Mails zur entsprechenden Abteilung anhand des Themas im Text. Ein paar fehlgeleitete Mails stellen hier kein Problem dar.

Anders sieht es aus, wenn Fehler nicht so offensichtlich sind. Bekannt wurde der Fall der Vorhersage-KI für die Rückfallwahrscheinlichkeit von Straftätern aus den USA, welch es aus den Trainingsdaten "lernte", People of Color alleine aufgrund ihrer Hautfarbe eine höhere Rückfallwahrscheinlichkeit zu attestieren – mit dem Ergebnis, dass diese deshalb länger im Gefängnis blieben. Der Fehler liegt hier nicht bei der KI, sondern dem Modellierer, der ungeeignete Merkmale, wie die Hautfarbe, überhaupt nicht als Input in das System hätte einfließen lassen dürfen.

Featurereduktion und -auswahl, also die Begrenzung des Inputs der KI auf Merkmale, die von einem Menschen aus einer Analyse des zu lösenden Problems als potentiell entscheidungsrelevant ausgesucht werden, ist eine der Möglichkeiten, Fehlerkennungen frühzeitig zu verhindern. Gleichzeitig ermöglicht sie eine bessere Kontrolle der Systeme: Erlernte Input-Output-Beziehungen lassen sich so besser nachvollziehen. Auch lassen sich mit viel kleineren Datenbeständen bessere Ergebnisse erreichen, weil hier nicht zunächst unter Einsatz großer Datenmengen die relevanten Signale aus einem lauten Grundrauschen herausgefunden werden müssen.

Komplexität als Risiko

Ein anderes Problem ergibt sich, wenn die Komplexität des Inputs hoch und das erlernte Modell in Hinblick auf die Nachvollziehbarkeit der Entscheidung so intransparent ist, dass sich einzelnes erratisches Verhalten zwar im Nachhinein attestieren, aber im Vorfeld nicht ausreichend testen und ausschließen lässt. In solchen Fällen kann es dann zum Beispiel dazu kommen, dass das autonome Uber-Auto ab und an eine Radfahrerin umfährt, weil es sie für eine Plastiktüte hält. Oder aber das System wird angreifbar, indem gezielt minimal modifizierter Input eine Fehlentscheidung provoziert. Bekannt ist hier der Fall, bei dem sich ein Stoppschild mittels zweier gezielt gestalteter, unauffällig platzierter farbiger Aufkleber aus Sicht der Autopilot-KI in ein Tempo 45-Schild verwandeln ließ.

Die meisten solcher späteren Probleme lassen sich durch sorgfältige, intensive Prüfung während der Entwicklung vermeiden. Das geht aber nur, wenn man die Ursachen und Fallstricke kennt.

Grundlagenwissen ist unverzichtbar

Für Marktforscher gehört die Unterscheidung zwischen Korrelation und Kausalität zum Grundlagenwissen. Bei Entwicklern und Anwendern von KI ist dieses Wissen aber keineswegs selbstverständlich vorhanden. Oft dämmert erst nach den ersten Fehlschlägen, dass beides nicht dasselbe ist.

Eine KI kann nur Korrelationen erkennen, aber daraus keine Kausalität erlernen. Diese elementare Tatsache ist vielen schlichtweg nicht bekannt. Aus meiner Sicht ist dies die späte Nachwehe einer leider immer noch weit verbreiteten behavioristischen Sicht, aus der heraus ein System bereits dann als intelligent gilt, wenn sein extern beobachtbares Verhalten dem eines Menschen ähnelt – völlig unabhängig davon, was in der "Black Box" tatsächlich abläuft.

Unbestreitbar ermöglicht diese rein auf Input-Output-Beziehungen begrenzte Sicht eine gute Vergleichbarkeit der Systeme. Ihre Beliebtheit bei Forschern und Entwicklern hat sie sicher nicht zuletzt dadurch, dass sie aufgrund ihrer modellhaften Reduktion eine einfache softwaretechnische Implementierung erlaubt, denn die Programmierung gegen eine Spezifikation definierten externen Verhaltens ist durchaus üblich. Aber sie greift nicht weit genug.

Intelligenz ist mehr als die Simulation von Verhalten

Dass die Simulation von Intelligenz auf Basis zurückgespiegelter Korrelationen in keiner Weise mit menschlicher Intelligenz vergleichbar ist, wird offensichtlich, wenn Fälle auftreten, bei denen ein Mensch mit einem Verständnis der Kausalität anders entschieden hätte. Sie treten genau dann zutage, wenn hinter einer in den Trainingsdaten vorhandenen Korrelation eben keine Kausalität steckt oder sich eine Kausalität nicht als in den Daten erkennbare und anlernbare Korrelation manifestiert. Erst dann reiben sich alle verwundert die Augen und fragen sich, wie einer KI solche "Fehler" passieren können – obwohl diese schlichtweg systeminhärent sind.

Hier wird auch deutlich, woher die Anforderungen an eine saubere Modellierung kommen, wenn man dennoch unter Kenntnis der Grenzen und Vermeidung der Fallstricke eine KI einsetzen möchte: Der Trainingsinput muss so gestaltet sein, dass die sichtbaren Korrelationen mit den tatsächlichen Kausalitäten deckungsgleich sind. Die Trainingsdaten müssen in Merkmalen und Verteilung den später zu klassifizierenden Daten entsprechen und für jeden später auftretenden Fall müssen bereits ähnliche Beispiele vorhanden sein. Dann, und nur dann, wird eine Korrelationen lernende KI in ihrem Verhalten keine Abweichungen von der Bewertung durch einen Menschen zeigen können.

Diese sehr weitgehende Forderung ist je nach Problemstellung aber schwer bis unmöglich zu erfüllen. Eine KI soll ja gerade dann zum Einsatz kommen, wenn eine nicht durch einfache Regeln spezifizierbare komplexe Fragestellung mit unbekannten Zusammenhängen vorliegt. Scheinkorrelationen aus den Trainingsdaten zu entfernen oder zu filtern, die man weder kennt noch sieht, ist kaum möglich. Und Forschungsansätze wie Explainable AI (xAI), die die gelernten Zusammenhänge zukünftig sichtbar machen sollen, stehen erst am Anfang.

Unser Ziel kann also keine vollständige Lösung, sondern nur die Eindämmung der Probleme auf ein erträgliches und vertretbares Maß sein, welches bestehende Restrisiken in Kauf nimmt. Der Weg besteht in präziser Auswahl repräsentativer Trainingsdaten, Reduktion des Inputs auf entscheidungsrelevante Merkmale und intensive Tests gegenüber unabhängigen Kontrollsets, die aus der Trainingsmenge entnommen, aber nicht für das Training selbst verwendet werden.

Dos and Don'ts für KI

Um nicht nur bei der Theorie zu bleiben, möchte ich einige konkrete Punkte nennen, auf die man beim Einsatz von KI aus meiner Sicht achten sollte. Sie sind als Checkliste zu verstehen, die konkret aus unserem Forschungs- und Anwendungsbereich der Textklassifikation stammen, aber in ihren Grundzügen auch auf andere KI-Bereiche anwendbar sind.

Bevor Sie beginnen: Lösbarkeit

Ist das Problem, das sie mittels KI lösen möchten, überhaupt durch einen Menschen objektiv eindeutig und kontextfrei lösbar?

Zur Bestimmung der Eindeutigkeit benötigen Sie mindestens zwei, besser drei Personen, die ihre Klassifikationsaufgabe auf demselben Beispielset durchführen. Aus einem Vergleich der Ergebnisse können Sie die Urteilerübereinstimmung oder Interrater-Reliabilität ableiten. Ist diese niedrig und unterscheiden sich die Klassifikationen somit erheblich, ist entweder Ihre Problembeschreibung unpräzise (Stichwort: Kodierungsplan) oder das Problem nicht objektiv lösbar. Dann werden Sie auch mit einer auf diesen Daten angelernten KI keine besseren Ergebnisse erzielen.

Kontextfreiheit: Überlegen Sie, ob die zur Klassifikation notwendigen Information en in den klassifizierenden Elementen enthalten ist. Dies können bestimmte Begriffe im Text oder andere Marker sein (Wort "Defekt" -> Weiterleitung an Kundensupport), die sich im besten Fall auch als einfache Wenn-Dann-Regel abbilden lassen. In vielen Fällen ist hingegen externes Wissen notwendig, um Zusammenhänge herstellen zu können. Beispiel: "Meine Kaffeemaschine surrt, aber es kommt kein Wasser" wäre ebenfalls ein Fall für den Support. Ein Mensch würde diese Klassifikation durch sein Allgemeinwissen über die Funktionsweise einer Kaffeemaschine lösen. Eine KI kann das grundsätzlich nicht, es sei denn ein ähnlicher Fall ("surren", "kein Wasser") wäre bereits in den Trainingsdaten vorhanden. Auch Deep Learning auf großen, externen Textmengen hilft hier nur dann weiter, sofern der Fall dort bereits vorkommt.

Aufbau der Trainingsdaten

Vollständigkeit: Prüfen Sie, ob Sie in Ihren verfügbaren Trainingsdaten alle auftretenden Fälle abgedeckt haben. Damit eine Regelmäßigkeit überhaupt entdeckt und erlernt werden kann, muss jeder zu erkennende Fall mindestens einmal vorkommen. Wenn Sie also seltene Fälle haben die erkannt werden sollen, aber nur in 1 von 1000 Fällen vorkommen ("Netzstecker brennt"), brauchen Sie mit einer kleineren Trainingsmenge als 1.000 gar nicht anzufangen. Besser wären 5.000 oder 10.000 Beispiele.

Noch problematischer sind Fälle, die später als Input vorkommen, aber in der Trainingsmenge fehlen. Entweder, weil es sie zu dem Zeitpunkt noch nicht gab, oder weil sie schlichtweg systematisch übersehen wurden. Ein Beispiel von vielen: Die Anwendung "AI Gahaku", die aus beliebigen Portraitfotos Gemälde im Renaissancestil erzeugt. Egal welcher Input, selbst mit Barack Obama: Die Gesichter auf den erzeugten Gemälden haben immer weiße Hautfarbe. Es braucht nicht viel Phantasie sich auszumalen, woran das wohl liegt.

Goldset: Bei einer Kodierung mit mindestens drei Kodierern können Sie aus den Klassifizierungsergebnissen ein Goldset mit "wahren" Ergebnissen bauen. Was als "wahr" gilt, definiert man je nach Art der Klassifikation und Anzahl der Klassen. Im einfachsten Fall, bei der Zuordnung zu zwei Klassen, kann als "wahre" Klasse die Klasse mit den meisten Stimmen gewählt werden. Alternativ kann man auch nur solche Elemente verwenden, bei denen das Votum aller Kodierer eindeutig ist.

Lassen Sie sich hierbei bitte nicht täuschen: Viele Anbieter von Klassifizierern werben damit, dass ihre Modelle weniger von menschlichen Bewertern abweichen, als die menschlichen Bewerter untereinander. Der Grund dafür liegt nur im Training an einem solchen "gemittelten" Goldset, nicht an einem besonders guten Klassifizierer.

Featurereduktion: Prüfen Sie Ihr Eingabeproblem auf überflüssige Information. Eigenschaften, die aus Ihrer Kenntnis des Problems entweder keine kausale Relevanz haben oder nicht verwendet werden sollen, z.B. aus ethischen Gründen, entfernen Sie aus dem Input. Das ist das genaue Gegenteil von dem, was man intuitiv machen würde – nämlich so viele Features wie möglich hineinwerfen und den Algorithmus entscheiden lassen. Es ist aber ein entscheidender Schritt, der die Freiheitsgrade des erlernten Modells einschränkt und Ihnen später eine bessere Kontrolle ermöglicht. Fehlklassifikationen und deren Ursache sind viel einfacher zu erklären, wenn die Anzahl der bewerteten Features überschaubar ist.

Haben Sie gar keinen Überblick darüber, welche Features überhaupt geeignet sind, bietet sich immer noch eine (Feature) Ablation Study an. Diese funktioniert sogar bei komplett intransparenten Methoden wie Deep Learning-Modellen. Idee ist, entweder einen Teil des Inputs oder Teile der Lernmethode, z.B. einzelne Layer eines neuronalen Netzes, komplett wegzulassen und die Auswirkung auf die Erkennungsquoten des dann gelernten Modells zu messen. Hierdurch erkennt man, welche Teile des Inputs oder der Methode keine Auswirkung auf das Ergebnis haben und welche entscheidungsrelevant sind. Bei den als entscheidungsrelevant identifizierten Features lässt sich so überprüfen, ob es sich um erwünschte handelt (Beispiel: Hautfarbe?). Unerwünschte und nicht entscheidungsrelevante können aus dem Input entfernt werden.

Unentscheidbarkeit: Überlegen Sie, wie Sie mit Unentscheidbarkeit umgehen möchten. Was soll passieren, wenn ein Fall schlecht oder gar nicht klassifizierbar ist? Unberücksichtigt wäre das Ergebnis mehr oder weniger zufällig. Besser ist, Sie versuchen, diese Fälle zu erkennen und manuell zu untersuchen. Eine Möglichkeit besteht in der Prüfung der Kennzahl zur Zuverlässigkeit der einzelnen Zuordnung, sofern die verwendete Methode Ihnen eine solche zurückliefert. Haben sie nur wenige Features, kann sich eine Unentscheidbarkeit dadurch zeigen, dass keine oder zu wenige entscheidungsrelevanten Features vorhanden sind.

Zusammenfassend lässt sich sagen: Bevor Sie in Versuchung kommen KI einzusetzen, versuchen Sie die zu lösende Fragestellung ganz genau zu verstehen. Je besser Sie diese verstanden haben, desto geringer sind spätere Probleme. Wenn Sie eine KI-Leistung extern beziehen: Stellen Sie Fragen und lassen sie sich alles so lange genau erklären, bis Sie es wirklich im Detail verstanden haben. Halten Sie es ähnlich wie bei Geldanlagen: Wenn Sie sie nicht verstanden haben, kaufen Sie sie nicht.

Und behalten Sie im Hinterkopf: Die Anwendung von KI-Methoden für einen bestimmten Anwendungszweck bleibt in erster Linie eine Ingenieursleistung. Eine KI, die angeblich "alles kann", kann ziemlich sicher nicht genau das, was Sie brauchen.

André Lang, geschäftsführender Gesellschafter - Insius UG (Bild: Autor)
André Lang ist Dipl.-Wirtschaftinformatiker und geschäftsführender Gesellschafter der Insius UG. Er erforscht und entwickelt seit über 10 Jahren Textanalytics- und NLP-Lösungen im Marktforschungsbereich. Seine Schwerpunkte liegen in Textklassifizierung, Informationsextraktion und Computerlinguistik.

Der Newsletter der Consultingbranche

News +++ Jobs +++ Whitepaper +++ Webinare

/pj

Kommentare (0)

Keine Kommentare gefunden!

Neuen Kommentar schreiben

Kommentare geben ausschließlich die Meinung ihrer Verfasser wieder. Die Redaktion behält sich vor, Kommentare nicht oder gekürzt zu veröffentlichen. Das gilt besonders für themenfremde, unsachliche oder herabwürdigende Kommentare sowie für versteckte Eigenwerbung.

Über marktforschung.de

Branchenwissen an zentraler Stelle bündeln und abrufbar machen – das ist das Hauptanliegen von marktforschung.de. Unser breites Informationsangebot rund um die Marktforschung richtet sich sowohl an Marktforschungsinstitute, Felddienstleister, Panelbetreiber und Herausgeber von Studien, Marktdaten sowie Marktanalysen als auch an deren Kunden aus Industrie, Handel und Dienstleistungsgewerbe.

facebook twitter xing linkedin