Bias in / bias out – Warum wir mehr Datenethik brauchen

Dr. Michaela Menken, Bold&Blunt GmbH

In Googles KI-Team kam es zu einem Eklat – der Grund dafür waren kritische Meinungen zu Modellen, welche durch das Training an großen Datensätzen entstehen, und bei denen Verzerrungen (Bias) mitantrainiert werden. Bias in / bias out – welche verschiedenen Bias gibt es beim Training der Künstlichen Intelligenz und wie sollte am besten mit diesen umgegangen werden?

Welche Rolle spielt Datenethik beim Einsatz von Künstlicher Intelligenz? (Bild: Mati Mango - Pexels)

Im vergangenen Dezember ging eine Personalentscheidung von Google durch die Medien, die das Thema Datenethik für einen Moment in den Mittelpunkt so mancher Diskussion rückte. Timnit Gebru, eine der beiden Leiterinnen des Ethical AI Intelligence Teams, hatte ihren Hut nehmen müssen. Nun, zwei Monate später, traf es ihre Kollegin, Margaret Mitchell, die am 19. Februar 2021 kurz und knapp twitterte: "I'm fired!"

Stein des Anstoßes lieferte nach offiziellen Aussagen von Google und Gebru ein wissenschaftliches Papier, das Gebru und Mitchell (bzw. "Shmargaret Shmitchell") gemeinsam mit den Computerlinguistinnen Emily Bender und Angelina McMillan-Major von der University Washington geschrieben hatten. Titel: "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?" In dem Übersichtsartikel erläutern die Autorinnen verschiedene Gefahren, denen man unausweichlich ausgesetzt ist, wenn man KI-Modelle auf riesigen Datensätzen trainiert - so wie Google, Facebook und Co. das tun. Google forderte, dass Gebru die Publikation zurückziehen oder sich zumindest aus der Liste der Autorinnen streichen lassen solle. Der Wunsch stieß nicht auf Gegenliebe, der Rest ist bekannt.

Sparse Data ist nicht mehr unser Hauptproblem

Google, Facebook und Co. haben das Rennen um die vorderen Ränge bei den technologischen Entwicklungen längst gewonnen. Während vor 10 Jahren der Wettkampf noch zwischen regelbasierten und Machine Learning Ansätzen tobte (Emily Bender war damals meine direkte Kollegin, und wir arbeiteten an einem grammatischen Modell, das rein regelbasiert war), ist diese Frage heute längst entschieden, und zwar zugunsten der Machine Learning Ansätze. Während Computerlinguist*innen ihre Sprachmodelle vor 10 Jahren noch überwiegend auf liebevoll kuratierten Textkorpora trainierten, bietet das Internet dafür heute mehr als genug Daten. Das sogenannte "sparse data problem", weswegen Modelle es damals nicht schafften, in Textkorpora mit 50 Millionen Wörtern ausreichend oft seltene Konstruktionen zu sehen, ist heutzutage deutlich in den Hintergrund gerückt. Wer seine Modelle auf dem Facebook-Gesamtdatensatz trainieren kann, hat schnell alles oft genug gesehen. Zumindest theoretisch. Gewinner sind demnach automatisch die Tech-Unternehmen, die von Hause aus viele Daten sammeln: Ihnen stehen riesige Trainings-Datensätze zur Verfügung. Google überblickt Milliarden von Webseiten, Facebook hat über 2 Milliarden Nutzer mit im Schnitt mehreren Tausend Datenpunkten für jeden. Daraus lassen sich sehr gut Modelle ableiten, und nichts anderes ist der allergrößte Teil der heutigen KI Anwendungen: Aus riesigen Datensätzen abgeleitete Modelle, die Ergebnisse vorhersagen, indem sie reproduzieren, was sie in den Trainingsdaten gesehen haben. Wie ein Papagei.

Garbage in/garbage out ist nicht alles

Und da liegt die Krux! Garbage in/garbage out, das Phänomen ist bekannt. Wenn der Datensatz zu "schlecht" ist, zu viel "falsche" Datenpunkte im Trainingsmaterial zu finden sind, ist das Ergebnis der Anwendung auch entsprechend ungenügend, weil alle Fehler mitgelernt werden. Das ist zwar nicht gut, im Gegensatz zu einem weiteren Fallstrick allerdings noch vergleichsweise einfach zu identifizieren. Schwieriger zu erkennen ist bias in/bias out. Sprich, die gelernten Modelle verstärken die Positionen und Stimmen, die in den Trainingsdaten am meisten vertreten sind. Und das sind selten die Positionen und Stimmen von Minderheiten. Und genau hier wird es jetzt interessant.

Timnit Gebru und Margaret Mitchell forschen seit Jahren zu dem Thema, welche Verzerrungen in Datenmodellen unbemerkt mittrainiert werden, und auch in dem Papier, das letztendlich zur Trennung führte, ist dies ein prominenter Punkt. Die Größe der verfügbaren Trainingssets ermöglichen einerseits, dass Systeme höchst akkurat trainiert werden können. Allerdings reproduzieren die daraus resultierenden Modelle ohne Berücksichtigung gesellschaftlich moralischer Regeln klassische Stereotypen bis hin zu fiktiven oder gar abwertenden Weltbildern. Für US und Britisches Englisch im Common Crawl Datensatz, so beschreiben Bender, Gebru et al. in dem Papier, seien die Stimmen von White Supremacists deutlich überrepräsentiert.3 Wenn man sich die Zusammensetzung einzelner Trainingsdatensätze ansieht, wird schnell klar: Nein, hier wird kein balanciertes Modell trainiert. So sind zum Beispiel mindestens 85 Prozent aller Wikipedia-Einträge von Männern geschrieben.

Verschiedene Sorten systematischer Fehler

Aber schauen wir uns die verschiedenen Arten von Verzerrungen einmal genauer an, mit denen wir zu tun haben, wenn algorithmische Modelle auf riesigen Datensätzen trainiert werden, zum Beispiel auf großen Korpora natürlicher Sprache. Für zahllose KI Anwendungen dienen diese als Trainingssets, um sprachliche (oder logische) Strukturen zu erkennen und dann im Modell zu reproduzieren. Alles das, was im Training gesehen wird, fließt hinterher in das Ergebnis der Anwendung ein. Das heißt aber umgekehrt auch: Was nicht in ausreichender Anzahl im Trainingsmaterial vorhanden ist, bleibt unbekannt. Manche Dinge tauchen in natürlicher Sprache gar nicht häufig auf, obwohl sie hochfrequent in der Welt vorkommen. In solchen Fällen sprechen wir von der Reporting Bias. Merkmale, die implizit vorhanden oder so geläufig sind, dass sie nicht extra erwähnt werden müssen, sprechen oder schreiben Menschen einfach nicht mit. Kaltes Eis, gelbe Zitrone, aber auch das Verb blinzeln, all das sind Wörter und Kombinationen, die in unserem Weltwissen verankert sind, über die wir aber nicht mehr reden müssen. Das stellt für ein maschinelles System ein Problem dar, da der Computer natürlich nicht weiß, dass wir alle paar Sekunden blinzeln, oder dass Eis grundsätzlich kalt ist. Implizite, ontologische Kenntnis der Welt steht der KI nicht vollumfänglich zur Verfügung, da Teile unseres sprachlichen und Weltwissens in Texten nicht auffindbar sind.

Zudem entscheiden Menschen darüber, wie genau der Trainingsdatensatz aussieht, welche Texte einfließen, und beim Supervised Learning, welche weitere Information den Daten zugefügt werden soll. Hier unterliegen das Data Set der sogenannten Selection Bias, also (ungewollten) Verzerrungen, die durch die Auswahl der Daten entstehen können, wie zum Beispiel das Überrepräsentieren eines Geschlechts. Die Confirmation Bias droht, sobald das Training abgeschlossen ist. Natürlich werden die Ergebnisse, die von dem Modell produziert werden, überprüft, und auch dazu wird auf das Wissen und die Erwartungen von Menschen zurückgegriffen. Ob der Output für qualitativ gut oder schlecht gehalten wird, korrespondiert natürlich mit dem Weltbild und den Erwartungen desjenigen, der die Überprüfung durchführt.

Das Ende der Prozesskette birgt noch die Gefahr der Automation Bias. Menschen neigen dazu, Ergebnisse, die algorithmisch herbeigeführt wurden, schneller und leichter anzunehmen als solche, die introspektiv, also durch reines Nachdenken, erzielt wurden. Können wir uns also darauf verlassen, dass eine Entscheidung automatisiert und damit gefühlt objektiv herbeigeführt wurde, hinterfragen wir sie weniger kritisch. Wenn wir uns jedoch ansehen, dass an allen Stellen der Modellentwicklung menschliche Stereotypen, Verzerrungen und Erwartungen eingebaut werden, und zwar unweigerlich, wird deutlich, dass es die objektive algorithmische Entscheidung, auf die wir uns ganz neutral verlassen können, gar nicht gibt.

Ein ethisches Problem, kein mathematisches

Wie aber gehen wir damit um? Die verschiedenen Sorten Bias zu umgehen ist schlichtweg und in Gänze unmöglich. Also wo können und müssen wir gegensteuern, und was bedeutet das für unseren Umgang mit KI Modellen und Anwendungen? An dieser Stelle bewegen wir uns auf einem Terrain, das nicht mehr mathematisch gelöst werden kann, sondern das unter ethischen Gesichtspunkten betrachtet werden muss. Dass männliche Stimmen in dem Wikipedia Datensatz überrepräsentiert sind, ist offensichtlich. Dass frauenfeindliche Stimmen von White Male Supremacists in dem Common Crawl Datensatz überrepräsentiert sind, ist natürlich unerwünscht und darf nicht dazu führen, dass sie in den resultierenden Modellen noch lauter gestellt werden. Andererseits sind von Natur aus Stimmen von Randgruppen, LGBTQ+, Menschen mit Behinderungen etc., deutlich weniger hörbar, weil sie einfach statistisch weniger oft stattfinden.

Hier kommt nun eine kulturelle Errungenschaft unserer Gesellschaften zum Tragen: Stimmen von Randgruppen sollen und wollen gehört werden, auch dann, wenn sie im Vergleich zu der großen Masse leise sind. Um Teilhabe, Einfluss und Aufmerksamkeit zu sichern, müssten Randgruppen statistisch überrepräsentiert werden, wenn ein algorithmisches Modell sie mit abbilden soll. Aber wer entscheidet genau, welche Stimmen überrepräsentiert werden und welche nicht, und nach welchen Kriterien findet die Auswahl statt? Dürfen wir rassistische Stimmen leiser und die von Minderheiten lauter stellen? Das absolut neutrale und wertfreie algorithmische Modell, das wir uns vorstellen, wenn wir über KI sprechen, gibt es nun einmal nicht, und wenn wir Modelle maschinell lernen lassen, verlieren wir automatisch die Minderheiten (entweder die tatsächlichen, oder die im Datensatz unterrepräsentierten), und Stereotypen werden fortgeschrieben. An jeder Stelle des Prozesses, von der Erstellung über die Auswahl und Annotation der Datensätze über das Training bis hin zur Evaluation, sind es menschliche Entscheidungen, die das Ergebnis des Modell formen oder beeinflussen. Die Software, die Richtern bei der Findung des Strafmaßes hilft, indem sie die Wahrscheinlichkeit vorhersagt, mit der Angeklagte wieder straffällig werden, ist nicht diese künstliche Intelligenz, die alles rein logisch errechnet, sondern ist das Produkt einer Reihe von menschlichen Abwägungen, Eingriffen und oft eben auch Verzerrungen. Und das ist unabänderlich. Wenn diese Zusammenhänge transparent gemacht werden und sie den Menschen, die von solchen Anwendungen und Entscheidungshilfen berührt werden, bekannt sind, können sie bewusster damit umgehen. Und an den Stellen, an denen Entscheidungen den einzelnen Betroffenen nicht nur zum Vorteil, sondern auch zum Nachteil gereichen können, muss die automatisierte Entscheidungsfindung kritisch hinterfragt werden. Ein wichtiger Punkt ist also die Transparenz über die Natur des Modells, des Trainingssets und die menschlichen Eingriffe in den Prozess.

Desweiteren müssten diese Eingriffe weiter dokumentiert werden. Wenn ich die Trainingsdaten dahingehend anpasse, dass auch niedrigfrequente aber wichtige Einheiten gelernt werden können, zum Beispiel, sollte ich das offenlegen. Gebru, Mitchell und andere fordern seit längerer Zeit ein Data Sheet, das den Datensatz dokumentiert und Eingriffe, Schwächen und generelle Überlegungen listet. So niederschwellig der Vorschlag wirkt, wäre das die Mindestanforderung an den verantwortungsvollen Umgang mit Datensätzen. Seien sie groß oder klein. Die Frage, ob Datensätze zu groß sein können, um verantwortungsvolle Modelle auf ihnen zu trainieren, lässt sich letztendlich auch leicht beantworten. Ja, können sie. Wenn die Masse der Daten so groß ist, dass es uns nicht mehr möglich ist, intellektuell zu erfassen, woraus sie besteht, wie sie aussieht und was sie abbildet, dann können wir auch nicht mehr kontrollieren, welche Biases wir versehentlich mittrainieren. Und dann sind wir immer noch nicht dort angekommen, wo Maschinen selber denken, aber wir sind dort, wo Menschen die Verantwortung für Prozess und Ergebnis nicht mehr tragen können.

Wir sind darauf angewiesen, dass sich mehr Menschen wie Gebru und Mitchell mit datenethischen Themen auseinandersetzen, und zwar nicht nur im wissenschaftlichen Kontext, sondern gerade auch in den großen Tech-Unternehmen, die die Praxisseite entwickeln, und deren Modelle letztendlich die Leben von Milliarden von Menschen beeinflussen. Es ist wichtig und notwendig, dass dort vor Ort Menschen die richtigen Fragen stellen, konkrete Missstände erklären und Entscheidungen mitgestalten. Es ist allerdings auch wichtig, dass deren Ergebnisse Beachtung finden, auch dann, wenn sie eventuell unbequem sind.

Zur Person

Dr. Michaela Menken ist geschäftsführende Gesellschafterin der bold&blunt GmbH, Beratung für Datenstrategie und Kreativplanung. Zuvor war sie Chief Data and Analytics Officer und Head of Research and Analytics bei Ketchum Deutschland. Die ersten 12 Jahre ihres Berufslebens arbeitete die gelernte Computerlinguistin an den Universitäten Münster, Leiden (NL), Stanford (USA) und Frankfurt a.M. in Forschung und Lehre und beschäftigte sich dort unter anderem mit Fragen der Datenethik.

Täglicher Newsletter der Insightsbranche

News +++ Jobs +++ Whitepaper +++ Webinare
Wir beliefern täglich mehr als 9.000 Abonnenten

/cb

Kommentare (4)

  1. Dr. Dieter Korczak am 16.04.2021
    Liebe Frau Menken,
    vielen Dank für diesen wohltuenden Artikel, der die Probleme des Arbeitens mit großen Datenmengen ausgezeichnet aufgelistet hat.
    Ich darf Sie ergänzend darauf aufmerksam machen, dass die Berücksichtigung von Reporting, Selection und Confirmation Bias seit Jahren zum Standardprogramm von Health Technological Assessments und der Evidenz basierten Medizin gehört. Wunderbar, dass Sie dieses Aspekte in die Mafo-Diskussion eingebracht haben.
  2. Michaela Menken am 16.04.2021
    Lieber Herr Steffen, herzlichen Dank für das Feedback. Ja, ich kenne einige Ansätze (Vieles ist nicht öffentlich). Die Damen, die inhaltlich in den letzten Jahren hier federführend waren, sind jetzt allerdings leider nicht mehr in der Funktion. Mal sehen, wie die Arbeit an dem Thema weitergeführt wird. China an dieser Stelle mitzudiskutieren ist sicherlich nötig (aber der Platz auch begrenzt), und die Frage, wie Europa sich überhaupt ins große Ganze einordnen kann, steht meines Erachtens noch in den Sternen. Wenn ich mir die hiesigen Institutionen (z.B. der Datenethikkommission) ansehe, habe ich nicht immer zwingend das Gefühl, dass die wichtigen Themen ausgewogen besprochen werden. Es gibt viele Dimensionen abseits der schützenswerten Personendaten.
  3. Heiko Rechenberger am 16.04.2021
    Sehr wichtiges Thema und guter Artikel, vielen Dank. Ein Thema, was eine so starke Relevanz gewinnen wird, und hoffentlich Grundsätze abgeleitet werde,n, bevor diese von den "Maschinen" überholt werden bzw. diese uns überholen...
  4. Dirk Steffen, Kantar am 15.04.2021
    Interessanter und gut recherchierter Artikel, herzlichen Dank Frau Dr. Menken. Haben Sie sich in diesem Zusammenhang auch schon einmal mit den von Google vorgeschlagenen Ansätzen zum Erkennen und Entfernen von Bias in den Trainingsdatensätzen auseinandergesetzt? Zusätzlich halte ich die Rolle von China in diesem Themenkomplex für sehr relevant: Die AI Engineeringkompetenz einerseits, die Datensammlung in allen Lebensbereichen in großem Stil andererseits sowie zuletzt ein politisches System, welches die Durchführung von AI Projekten ohne große ethische Diskussion ermöglicht, führt zu einer sehr machtvollen Ausgangsposition der Chinesen in diesem Wachstumsfeld. Wo bleibt Europa, eingerahmt von den großen Platformen der USA und den Chinesen? Viele Grüße, Dirk Steffen

Neuen Kommentar schreiben

Kommentare geben ausschließlich die Meinung ihrer Verfasser wieder. Die Redaktion behält sich vor, Kommentare nicht oder gekürzt zu veröffentlichen. Das gilt besonders für themenfremde, unsachliche oder herabwürdigende Kommentare sowie für versteckte Eigenwerbung.

Über marktforschung.de

Branchenwissen an zentraler Stelle bündeln und abrufbar machen – das ist das Hauptanliegen von marktforschung.de. Unser breites Informationsangebot rund um die Marktforschung richtet sich sowohl an Marktforschungsinstitute, Felddienstleister, Panelbetreiber und Herausgeber von Studien, Marktdaten sowie Marktanalysen als auch an deren Kunden aus Industrie, Handel und Dienstleistungsgewerbe.

facebook twitter xing linkedin