Dr. Michaela Menken, Bold&Blunt GmbH Bias in / bias out – Warum wir mehr Datenethik brauchen

Im vergangenen Dezember ging eine Personalentscheidung von Google durch die Medien, die das Thema Datenethik für einen Moment in den Mittelpunkt so mancher Diskussion rückte. Timnit Gebru, eine der beiden Leiterinnen des Ethical AI Intelligence Teams, hatte ihren Hut nehmen müssen. Nun, zwei Monate später, traf es ihre Kollegin, Margaret Mitchell, die am 19. Februar 2021 kurz und knapp twitterte: "I'm fired!"
Stein des Anstoßes lieferte nach offiziellen Aussagen von Google und Gebru ein wissenschaftliches Papier, das Gebru und Mitchell (bzw. "Shmargaret Shmitchell") gemeinsam mit den Computerlinguistinnen Emily Bender und Angelina McMillan-Major von der University Washington geschrieben hatten. Titel: "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?" In dem Übersichtsartikel erläutern die Autorinnen verschiedene Gefahren, denen man unausweichlich ausgesetzt ist, wenn man KI-Modelle auf riesigen Datensätzen trainiert - so wie Google, Facebook und Co. das tun. Google forderte, dass Gebru die Publikation zurückziehen oder sich zumindest aus der Liste der Autorinnen streichen lassen solle. Der Wunsch stieß nicht auf Gegenliebe, der Rest ist bekannt.
Sparse Data ist nicht mehr unser Hauptproblem
Google, Facebook und Co. haben das Rennen um die vorderen Ränge bei den technologischen Entwicklungen längst gewonnen. Während vor 10 Jahren der Wettkampf noch zwischen regelbasierten und Machine Learning Ansätzen tobte (Emily Bender war damals meine direkte Kollegin, und wir arbeiteten an einem grammatischen Modell, das rein regelbasiert war), ist diese Frage heute längst entschieden, und zwar zugunsten der Machine Learning Ansätze. Während Computerlinguist*innen ihre Sprachmodelle vor 10 Jahren noch überwiegend auf liebevoll kuratierten Textkorpora trainierten, bietet das Internet dafür heute mehr als genug Daten. Das sogenannte "sparse data problem", weswegen Modelle es damals nicht schafften, in Textkorpora mit 50 Millionen Wörtern ausreichend oft seltene Konstruktionen zu sehen, ist heutzutage deutlich in den Hintergrund gerückt. Wer seine Modelle auf dem Facebook-Gesamtdatensatz trainieren kann, hat schnell alles oft genug gesehen. Zumindest theoretisch. Gewinner sind demnach automatisch die Tech-Unternehmen, die von Hause aus viele Daten sammeln: Ihnen stehen riesige Trainings-Datensätze zur Verfügung. Google überblickt Milliarden von Webseiten, Facebook hat über 2 Milliarden Nutzer mit im Schnitt mehreren Tausend Datenpunkten für jeden. Daraus lassen sich sehr gut Modelle ableiten, und nichts anderes ist der allergrößte Teil der heutigen KI Anwendungen: Aus riesigen Datensätzen abgeleitete Modelle, die Ergebnisse vorhersagen, indem sie reproduzieren, was sie in den Trainingsdaten gesehen haben. Wie ein Papagei.
Garbage in/garbage out ist nicht alles
Und da liegt die Krux! Garbage in/garbage out, das Phänomen ist bekannt. Wenn der Datensatz zu "schlecht" ist, zu viel "falsche" Datenpunkte im Trainingsmaterial zu finden sind, ist das Ergebnis der Anwendung auch entsprechend ungenügend, weil alle Fehler mitgelernt werden. Das ist zwar nicht gut, im Gegensatz zu einem weiteren Fallstrick allerdings noch vergleichsweise einfach zu identifizieren. Schwieriger zu erkennen ist bias in/bias out. Sprich, die gelernten Modelle verstärken die Positionen und Stimmen, die in den Trainingsdaten am meisten vertreten sind. Und das sind selten die Positionen und Stimmen von Minderheiten. Und genau hier wird es jetzt interessant.
Timnit Gebru und Margaret Mitchell forschen seit Jahren zu dem Thema, welche Verzerrungen in Datenmodellen unbemerkt mittrainiert werden, und auch in dem Papier, das letztendlich zur Trennung führte, ist dies ein prominenter Punkt. Die Größe der verfügbaren Trainingssets ermöglichen einerseits, dass Systeme höchst akkurat trainiert werden können. Allerdings reproduzieren die daraus resultierenden Modelle ohne Berücksichtigung gesellschaftlich moralischer Regeln klassische Stereotypen bis hin zu fiktiven oder gar abwertenden Weltbildern. Für US und Britisches Englisch im Common Crawl Datensatz, so beschreiben Bender, Gebru et al. in dem Papier, seien die Stimmen von White Supremacists deutlich überrepräsentiert.3 Wenn man sich die Zusammensetzung einzelner Trainingsdatensätze ansieht, wird schnell klar: Nein, hier wird kein balanciertes Modell trainiert. So sind zum Beispiel mindestens 85 Prozent aller Wikipedia-Einträge von Männern geschrieben.
Verschiedene Sorten systematischer Fehler
Aber schauen wir uns die verschiedenen Arten von Verzerrungen einmal genauer an, mit denen wir zu tun haben, wenn algorithmische Modelle auf riesigen Datensätzen trainiert werden, zum Beispiel auf großen Korpora natürlicher Sprache. Für zahllose KI Anwendungen dienen diese als Trainingssets, um sprachliche (oder logische) Strukturen zu erkennen und dann im Modell zu reproduzieren. Alles das, was im Training gesehen wird, fließt hinterher in das Ergebnis der Anwendung ein. Das heißt aber umgekehrt auch: Was nicht in ausreichender Anzahl im Trainingsmaterial vorhanden ist, bleibt unbekannt. Manche Dinge tauchen in natürlicher Sprache gar nicht häufig auf, obwohl sie hochfrequent in der Welt vorkommen. In solchen Fällen sprechen wir von der Reporting Bias. Merkmale, die implizit vorhanden oder so geläufig sind, dass sie nicht extra erwähnt werden müssen, sprechen oder schreiben Menschen einfach nicht mit. Kaltes Eis, gelbe Zitrone, aber auch das Verb blinzeln, all das sind Wörter und Kombinationen, die in unserem Weltwissen verankert sind, über die wir aber nicht mehr reden müssen. Das stellt für ein maschinelles System ein Problem dar, da der Computer natürlich nicht weiß, dass wir alle paar Sekunden blinzeln, oder dass Eis grundsätzlich kalt ist. Implizite, ontologische Kenntnis der Welt steht der KI nicht vollumfänglich zur Verfügung, da Teile unseres sprachlichen und Weltwissens in Texten nicht auffindbar sind.
Zudem entscheiden Menschen darüber, wie genau der Trainingsdatensatz aussieht, welche Texte einfließen, und beim Supervised Learning, welche weitere Information den Daten zugefügt werden soll. Hier unterliegen das Data Set der sogenannten Selection Bias, also (ungewollten) Verzerrungen, die durch die Auswahl der Daten entstehen können, wie zum Beispiel das Überrepräsentieren eines Geschlechts. Die Confirmation Bias droht, sobald das Training abgeschlossen ist. Natürlich werden die Ergebnisse, die von dem Modell produziert werden, überprüft, und auch dazu wird auf das Wissen und die Erwartungen von Menschen zurückgegriffen. Ob der Output für qualitativ gut oder schlecht gehalten wird, korrespondiert natürlich mit dem Weltbild und den Erwartungen desjenigen, der die Überprüfung durchführt.
Das Ende der Prozesskette birgt noch die Gefahr der Automation Bias. Menschen neigen dazu, Ergebnisse, die algorithmisch herbeigeführt wurden, schneller und leichter anzunehmen als solche, die introspektiv, also durch reines Nachdenken, erzielt wurden. Können wir uns also darauf verlassen, dass eine Entscheidung automatisiert und damit gefühlt objektiv herbeigeführt wurde, hinterfragen wir sie weniger kritisch. Wenn wir uns jedoch ansehen, dass an allen Stellen der Modellentwicklung menschliche Stereotypen, Verzerrungen und Erwartungen eingebaut werden, und zwar unweigerlich, wird deutlich, dass es die objektive algorithmische Entscheidung, auf die wir uns ganz neutral verlassen können, gar nicht gibt.
Ein ethisches Problem, kein mathematisches
Wie aber gehen wir damit um? Die verschiedenen Sorten Bias zu umgehen ist schlichtweg und in Gänze unmöglich. Also wo können und müssen wir gegensteuern, und was bedeutet das für unseren Umgang mit KI Modellen und Anwendungen? An dieser Stelle bewegen wir uns auf einem Terrain, das nicht mehr mathematisch gelöst werden kann, sondern das unter ethischen Gesichtspunkten betrachtet werden muss. Dass männliche Stimmen in dem Wikipedia Datensatz überrepräsentiert sind, ist offensichtlich. Dass frauenfeindliche Stimmen von White Male Supremacists in dem Common Crawl Datensatz überrepräsentiert sind, ist natürlich unerwünscht und darf nicht dazu führen, dass sie in den resultierenden Modellen noch lauter gestellt werden. Andererseits sind von Natur aus Stimmen von Randgruppen, LGBTQ+, Menschen mit Behinderungen etc., deutlich weniger hörbar, weil sie einfach statistisch weniger oft stattfinden.
Hier kommt nun eine kulturelle Errungenschaft unserer Gesellschaften zum Tragen: Stimmen von Randgruppen sollen und wollen gehört werden, auch dann, wenn sie im Vergleich zu der großen Masse leise sind. Um Teilhabe, Einfluss und Aufmerksamkeit zu sichern, müssten Randgruppen statistisch überrepräsentiert werden, wenn ein algorithmisches Modell sie mit abbilden soll. Aber wer entscheidet genau, welche Stimmen überrepräsentiert werden und welche nicht, und nach welchen Kriterien findet die Auswahl statt? Dürfen wir rassistische Stimmen leiser und die von Minderheiten lauter stellen? Das absolut neutrale und wertfreie algorithmische Modell, das wir uns vorstellen, wenn wir über KI sprechen, gibt es nun einmal nicht, und wenn wir Modelle maschinell lernen lassen, verlieren wir automatisch die Minderheiten (entweder die tatsächlichen, oder die im Datensatz unterrepräsentierten), und Stereotypen werden fortgeschrieben. An jeder Stelle des Prozesses, von der Erstellung über die Auswahl und Annotation der Datensätze über das Training bis hin zur Evaluation, sind es menschliche Entscheidungen, die das Ergebnis des Modell formen oder beeinflussen. Die Software, die Richtern bei der Findung des Strafmaßes hilft, indem sie die Wahrscheinlichkeit vorhersagt, mit der Angeklagte wieder straffällig werden, ist nicht diese künstliche Intelligenz, die alles rein logisch errechnet, sondern ist das Produkt einer Reihe von menschlichen Abwägungen, Eingriffen und oft eben auch Verzerrungen. Und das ist unabänderlich. Wenn diese Zusammenhänge transparent gemacht werden und sie den Menschen, die von solchen Anwendungen und Entscheidungshilfen berührt werden, bekannt sind, können sie bewusster damit umgehen. Und an den Stellen, an denen Entscheidungen den einzelnen Betroffenen nicht nur zum Vorteil, sondern auch zum Nachteil gereichen können, muss die automatisierte Entscheidungsfindung kritisch hinterfragt werden. Ein wichtiger Punkt ist also die Transparenz über die Natur des Modells, des Trainingssets und die menschlichen Eingriffe in den Prozess.
Desweiteren müssten diese Eingriffe weiter dokumentiert werden. Wenn ich die Trainingsdaten dahingehend anpasse, dass auch niedrigfrequente aber wichtige Einheiten gelernt werden können, zum Beispiel, sollte ich das offenlegen. Gebru, Mitchell und andere fordern seit längerer Zeit ein Data Sheet, das den Datensatz dokumentiert und Eingriffe, Schwächen und generelle Überlegungen listet. So niederschwellig der Vorschlag wirkt, wäre das die Mindestanforderung an den verantwortungsvollen Umgang mit Datensätzen. Seien sie groß oder klein. Die Frage, ob Datensätze zu groß sein können, um verantwortungsvolle Modelle auf ihnen zu trainieren, lässt sich letztendlich auch leicht beantworten. Ja, können sie. Wenn die Masse der Daten so groß ist, dass es uns nicht mehr möglich ist, intellektuell zu erfassen, woraus sie besteht, wie sie aussieht und was sie abbildet, dann können wir auch nicht mehr kontrollieren, welche Biases wir versehentlich mittrainieren. Und dann sind wir immer noch nicht dort angekommen, wo Maschinen selber denken, aber wir sind dort, wo Menschen die Verantwortung für Prozess und Ergebnis nicht mehr tragen können.
Wir sind darauf angewiesen, dass sich mehr Menschen wie Gebru und Mitchell mit datenethischen Themen auseinandersetzen, und zwar nicht nur im wissenschaftlichen Kontext, sondern gerade auch in den großen Tech-Unternehmen, die die Praxisseite entwickeln, und deren Modelle letztendlich die Leben von Milliarden von Menschen beeinflussen. Es ist wichtig und notwendig, dass dort vor Ort Menschen die richtigen Fragen stellen, konkrete Missstände erklären und Entscheidungen mitgestalten. Es ist allerdings auch wichtig, dass deren Ergebnisse Beachtung finden, auch dann, wenn sie eventuell unbequem sind.
Zur Person

/cb
Kommentare (4)
Um unsere Kommentarfunktion nutzen zu können müssen Sie sich anmelden.
Anmelden