Der neueste Automating Society Report von Algorithmwatch und der Bertelsmannstiftung zeigt einmal mehr: auch in Europa werden zunehmend Computerprogramme zur Bewertung von Menschen eingesetzt, sei es bei der Beurteilung der Kreditwürdigkeit, in der Vorauswahl von Bewerbern, oder der Einschätzung des schulischen Leistungspotentials. Frei nach dem Motto „bloß nicht in technologischen Rückstand geraten“ ist die ethische Beurteilung solcher algorithmischer Entscheidungssysteme (algorithmic decision-making systems, kurz ADMS) dabei oft zweitrangig. Aber nach welchen Kriterien beurteilt man eigentlich, ob ein ADMS ethisch vertretbare Entscheidungen trifft und ob sein Einsatz ethisch akzeptabel ist? In diesem Beitrag wollen wir einer Facette dieser Frage, nämlich der algorithmischen Fairness, genauer auf den Grund gehen.

Was ist algorithmische Fairness?

Was ist das, Fairness? Die meisten Leser werden damit sofort wenigstens zwei verwandte Begriffe assoziieren: Gerechtigkeit und Diskriminierungsfreiheit. Vor allem der zweite Begriff ist dabei tatsächlich sehr nah an dem, was im Kontext algorithmischer Entscheidungssysteme gemeint ist. Ganz grob kann man sagen, dass Diskriminierungsfreiheit dann vorliegt, wenn Menschen nur dann unterschiedlich behandelt werden, wenn dies aufgrund ihrer Unterschiedlichkeit gerechtfertigt ist. Während es eine anspruchsvolle und zutiefst moralphilosophische Frage ist, wann und weshalb eine Ungleichbehandlung gerechtfertigt ist, so besteht einer der größten gesellschaftlichen Fortschritte des letzten Jahrhunderts darin, dass wir uns auf einen bestimmten Kanon von geschützten Merkmalen einigen konnten, die für sich genommen keine Ungleichbehandlung rechtfertigen. Geschlecht, Religionszugehörigkeit, Rasse, Hautfarbe, Minderheitszugehörigkeit, nationale oder soziale Herkunft, sexuelle Identität, Alter oder Behinderung sind alles keine zulässigen Entscheidungsmerkmale. Sie können und dürfen eine Ungleichbehandlung nicht an sich bzw. für sich genommen rechtfertigen. Ausnahmen von dieser grundsätzlichen Regelung gelten nur in wenigen Fällen, etwa wenn eine Behinderung die Ausübung eines Berufes praktisch unmöglich macht, oder aber wenn eine Ungleichbehandlung einer bestehenden gesellschaftlichen Ungleichheit entgegenwirken soll, die als ungerecht wahrgenommen wird (z.B. Frauenquote).

Im Kern geht es bei der Frage der algorithmischen Fairness also darum, ob Menschen von automatisierten Entscheidungssystemen aufgrund ihrer Zugehörigkeit zu bestimmten Gruppen ungerechtfertigt ungleichbehandelt werden. Anders als in manch anderem Kontext, ist der Fairnessbegriff im Bereich der Algorithmen jedoch ein oft stark technischer, operationalisierter und formalisierter.

Um uns einem tieferen Verständnis algorithmischer Fairness anzunähern, sollten wir uns zunächst ein wenig mehr mit ADMS beschäftigen. Ein ADMS ermöglicht dem Nutzer, typischerweise ein Unternehmen oder eine Behörde, automatisiert Entscheidungen zu treffen oder zumindest die Anzahl der möglichen Optionen zu reduzieren, sodass anschließend ein Mensch auf Grundlage entsprechender Empfehlungen eine finale Entscheidung treffen kann. Man stelle sich beispielsweise ein Programm vor, welches BewerberInnen auf Basis ihres Lebenslaufs in die Kategorien ‚geeignet‘ und ‚ungeeignet‘ vorsortiert, oder aber eines, das Aktien auf Grundlage ihrer Kursentwicklung als ‚Buy‘, ‚Hold‘ oder ‚Sell‘ einstuft. Allgemeiner ist ein ADMS also ein System von Algorithmen, welches bestimmte Dinge (BewerberInnen, potenzielle KundenInnen, Aktien) auf Basis vorhandener Daten (z.B. Lebenslauf, Surfverhalten, Kursentwicklung) und anhand im Voraus festgelegter Kriterien automatisiert in Kategorien einordnet. In anderen Worten sind ADMS also vor allem eines: Klassifikatoren.

Es liegt in der Natur der Sache, dass ein ADMS die zu klassifizierenden Dinge aufgrund ihrer Eigenschaften im technischen Sinne diskriminiert, also unterscheidet und damit eben auch unterschiedlich behandelt. Handelt es sich bei jenen Dingen um Menschen, landet man also schnell bei der weiter oben formulierten Frage, aufgrund welcher Eigenschaften eine Ungleichbehandlung durch ein ADMS als gerechtfertigt angesehen oder als inakzeptabel abgelehnt werden sollte. So würde man eine Diskriminierung von BewerberInnen anhand von Berufserfahrung oder schulischen Leistungen wohl gemeinhin akzeptieren, während eine Diskriminierung anhand geschützter Merkmale eben inakzeptabel und in Deutschland gemäß Artikel 3 des Grundgesetzes unzulässig ist. In einer allgemeinen Näherung bezeichnet man dementsprechend ein ADMS als fair, wenn es Menschen nicht auf Grundlage ihrer geschützten Merkmale unterschiedlich behandelt; andernfalls bezeichnen wir ein ADMS als unfair.

Man könnte zur Gewährleistung algorithmischer Fairness also zunächst vorschlagen, geschützte Merkmale einfach konsequent aus den Daten zu entfernen, die einem ADMS übergeben werden. Dieser naive Lösungsansatz stellt sich dabei bei näherem Hinsehen allerdings als unzureichend heraus, denn in reellen Datensätzen weisen solche Merkmale typischerweise eine statistische Korrelation mit anderen, sehr wohl als relevant angesehenen Merkmalen auf. Die Gründe für das Auftreten solcher Korrelationen sind dabei vielfältig und reichen von bereits bestehenden gesellschaftlichen Ungleichheiten über nicht repräsentative Datensätze bis hin zum Zufall. Ein ADMS kann also möglicherweise implizit statistische Rückschlüsse auf ein geschütztes Merkmal ziehen, ohne dieses explizit zu kennen und daher ungewollt geschützte Merkmale in seine Entscheidungsfindung miteinbeziehen oder jedenfalls eine statistische Verzerrung zu Ungunsten von Menschen mit Merkmal aufweisen. Realbeispiele von implizit aufgrund von statistischen Korrelationen diskriminierender ADMS wurden in den letzten Jahren in den Medien vielfach diskutiert; das vielleicht bekannteste ist eine von Amazon im Jahr 2014 eingesetzte Software zur Bewerberprüfung, die weibliche Kandidatinnen gegenüber ihren männlichen Konkurrenten benachteiligte. Aber auch andere Technologieriesen (Stichwort Apple Card) und Behörden (Stichwort Hamburger Fotoautomaten) haben beim Thema Diskrimination durch ADMS ungewollte Aufmerksamkeit auf sich gezogen. Vielen dieser Beispiele ist gemein, dass die genutzten ADMS auf dem Prinzip des maschinellem Lernen beruhen. Damit ist die Erkennung relevanter Korrelationen in den Eingabedaten erstens Grundlage ihrer Funktionsweise und geschieht zweitens typischerweise implizit, ohne dem Nutzer oder auch dem Entwickler in einer direkt nachvollziehbaren Art und Weise zugänglich zu sein. Es gestaltet sich demnach oftmals schwierig, einer Diskriminierung bereits in der Entwicklung eines maschinell lernenden ADMS vorzubeugen, ohne dessen Funktionalität erheblich einzuschränken.

Wie misst man algorithmische Fairness?

Wenn es also nicht so einfach ist, eine Ungleichbehandlung im Vorhinein auszuschließen, dann stellt sich zunächst die Frage, wie man unfaire Systeme finden und bewerten kann. Dafür benötigt man statistische Kennzahlen, welche die Fehler eines ADMS für die verschiedenen Gruppen quantifizieren. Diese Fehlermaße relativ zu Gruppenzugehörigkeit ergeben sogenannte Fairnessmaße. Die Wahl des Kenngröße, anhand derer man die Fairness eines ADMS beurteilt, ist dabei keine rein statistische, sondern, wie wir sogleich sehen werden, vor allem eine ethische Fragestellung. Insbesondere werden wir feststellen, dass man verschiedene, ähnlich natürlich erscheinende Fairnessmaße nicht gemeinsam maximieren kann und man daher gezwungen ist, ‚mathematische Unfairness‘ hinsichtlich mindestens eines dieser Fairnessmaße in Kauf zu nehmen.

Um dies zu demonstrieren, wollen wir zunächst einige häufig verwendete Fairnessmaße einführen. Nehmen wir dazu ein idealisiertes Szenario an, indem ein ADMS zwei eindeutig unterscheidbare Gruppen geeigneter (Gruppe 1) und ungeeigneter (Gruppe B) BewerberInnen korrekt als ungeeignet oder geeignet identifizieren soll. (Dass dies in der Realität schon eine eher unrealistische Annahme ist bzw., dass selbst, wenn sie gilt, wir für die Unterscheidung dieser Gruppen womöglich Merkmale heranziehen müssten, die nicht quantifizierbar sein können, sondern nur durch Proxies abschätzen können – denken Sie an das Merkmal Zuverlässigkeit, das wir nicht direkt messen, sondern höchstens durch sogenannte Proxis approximieren können, beispielsweise durch einen Blick auf Fehlzeiten und Krankheitstage – und daher nicht als Eingaben für ADMS taugen, ist ein anderes Problem für viele ADMS-Anwendungen, aber keines der algorithmischen Fairness.) Weiterhin seien die KandidatInnen ebenfalls anhand eines geschützten Merkmals in zwei Gruppen unterteilbar, Gruppe A und Gruppe B. Um die Fehleranfälligkeit unseres ADMS genauer zu untersuchen, unterscheiden wir nun zwei Arten von Fehlern. Werden eigentlich geeignete BewerberInnen in die Kategorie „ungeeignet“ einsortiert, so spricht man von False Negatives (FN). Umgekehrt werden ungeeignete BewerberInnen, die fälschlicherweise als geeignet beurteilt werden, als False Positives (FP) bezeichnet. Ebenso gibt es die Bezeichnungen True Negatives (TN) für korrekt als ungeeignet befundene und True Positives (TP) für korrekt als geeignet befundene KandidatInnen. Möchte man nun die Fehleranfälligkeit des ADMS für die Gruppen A und B vergleichen, so hat man gleich mehrere Möglichkeiten. Zunächst einmal kann mal für die jeweilige Gruppe (wir nehmen zur Veranschaulichung Gruppe A) den relativen Gesamtfehler, also das Verhältnis des Gesamtfehlers zur Anzahl der zu Gruppe A gehörigen Kandidaten, berechnen:

    \[ \mathrm{relativer \ Gesamtfehler} = \frac{FP_A+FN_A}{\mathrm{Größe \ Gruppe \ A}}. \]

Genauso kann man die Anzahl der False Negatives mit der Anzahl der tatsächlich geeigneten BewerberInnen in Gruppe A vergleichen, wodurch man die sogenannte False Negative Rate (FNR) erhält:

    \[ FNR_A = \frac{FN_A}{TP_A+FN_A}. \]

Ein analoges Vorgehen für False Positives ergibt im Übrigen die False Positive Rate (FPR):

    \[ FPR_A= \frac{FP_A}{FP_A+TN_A}. \]

Die letzte gerne zu Rate gezogene Kenngröße, die wir einführen wollen, ist der Positive Prediction Value (PPV): die Wahrscheinlichkeit, dass ein vom ADMS für geeignet befundener Bewerber auch tatsächlich geeignet ist. Den PPV bestimmt man mit der Formel

    \[ PPV_A = \frac{TP_A}{TP_A + FP_A}. \]

Wir wollen die eingeführten Kennzahlen für die Gruppe A bestehend aus 10 geeigneten und 10 ungeeigneten KandidatInnen im folgenden Zahlenbeispiel berechnen:

Gruppe A Geeignet (10) Ungeeignet (10)
Als geeignet beurteilt 8 True Positives 5 False Positives
Als ungeeignet beurteilt 2 False Negatives 5 True Negatives

Gemäß den obigen Formeln beträgt der Gesamtfehler in diesem Beispiel also 7/20 = 0.35, für FNR_A ergibt sich der Wert 2/10 = 0.2 und für FPR_A der Wert 5/10 = 0.5. Der positive prediction value PPV_A liegt für Gruppe A bei 8/13 \sim 0.615. Schauen wir uns nun an, wie Gruppe B, bestehend aus 15 geeigneten und 6 ungeeigneten KandidatInnen, von unserem Beispiel ADMS beurteilt wird:

Gruppe B Geeignet (15) Ungeeignet (6)
Als geeignet beurteilt 12 True Positives 3 False Positives
Als ungeeignet beurteilt 3 False Negatives 3 True Negatives

Für Gruppe B ergibt sich also der Gesamtfehler 6/21 \sim 0.29, eine FNR_B von 3/15 = 0.2, eine FPR_B von 3/6 = 0.5 und ein PPV_B von 12/15 = 0.8.

Von einem perfekt und vollumfänglich fairen ADMS würde man nun fordern, dass sich für keine der bisher definierten Kennzahlen ein nennenswerter Unterschied zwischen den beiden Gruppen A und B feststellen lässt, dass also sowohl der Gesamtfehler als auch FNR, FPR und PPV für beide Gruppen nahezu übereinstimmen. In unserem Zahlenbeispiel ist eine solche Übereinstimmung für die Größen FPR und FNR gegeben, während der Gesamtfehler bei Gruppe A (0.35) etwas größer ist als bei Gruppe B (0.29). Die PPVs der beiden Gruppen weichen dagegen bereits stärker voneinander ab (A: 0.615, B: 0.8). Zusammengefasst ist unser Beispiel-ADMS also den Fairnessmaßen FNR und FPR zufolge fair, wohingegen Gruppe A dem Gesamtfehler zufolge leicht diskriminiert wird. Andererseits ist die Wahrscheinlichkeit der tatsächlichen Eignung für als geeignet klassifizierte Angehörige der Gruppe A (der PPV) deutlich niedriger als für Angehörige der Gruppe B, hier wird Gruppe B also benachteiligt.

Das bedeutet nichts anderes als dies: Wenn man zur Gruppe A gehört, wird man zwar nicht wahrscheinlicher falsch kategorisiert, als wenn man zu Gruppe B gehören würde, wohl aber ist eine positive Kategorisierung deutlich weniger aussagekräftig. Münzen wir dies auf das Bewerbungsbeispiel um und identifizieren wir Gruppe A mit männlichen Bewerbern und Gruppe B mit weiblichen Bewerben, so heißt das, dass Frauen zwar nicht häufiger fälschlicherweise als ungeeignet (und auch nicht fälschlicherweise als geeignet) klassifiziert würden. Aber es hieße dennoch, dass Männer, die als geeignet klassifiziert werden, häufiger eigentlich doch nicht geeignet wären. Für mathematisch ungeschulte Ohren klingt das womöglich widersinnig, aber hier geht alles mit rechten Dingen zu: Diese Verzerrung ist durch die sich unterscheidende Prävalenz möglich: Angehörige der Gruppe B (in unserm Beispiel also Frauen) sind schlicht häufiger tatsächlich geeignet als Angehörige der Gruppe A (Männer).

Eine solche Situation ist dabei keineswegs ein konstruierter Ausnahmefall. Wie wiederholt gezeigt wurde, ist eine solch allgemeine Optimierung respektive Kalibrierung für unser ADMS mathematisch unmöglich (unter eine Bedingung, auf die wir sofort zu sprechen kommen). Genauer ergibt sich nämlich zwischen den Größen FNR, FPR und PPV ein mathematischer Zusammenhang, der erzwingt, dass eine Übereinstimmung zweier dieser Größen zwischen beiden Gruppen A und B (z.B. FNR_A = FNR_B und FPR_A=FPR_B) automatisch die Ungleichheit der verbliebenen Größe zwischen beiden Gruppen nach sich zieht (PPV_A \neq PPV_B). Das ADMS ist also zwangsläufig mindestens einem der gegebenen Fairnessmaße zufolge unfair. Das gilt zumindest unter der (in reellen Datensätzen so gut wie immer geltenden) Zusatzvoraussetzung, dass die Prävalenz p (das relative Auftreten der zu klassifizierenden Eigenschaft, in unserem Beispiel die Eignung) in beiden Gruppen A und B nicht exakt übereinstimmt, das heißt, dass in der Gruppe A anteilig genauso viele geeignete Kandidaten zu finden sind wie in Gruppe B. Zur Veranschaulichung denke man an Bewerber mit und ohne Migrationshintergrund: Da in quasi allen Ländern dieser Welt die Bildungschancen für Menschen mit einem solchen Hintergrund schlechter sind als für Menschen ohne ihn, dürften wir annehmen, dass Bewerber mit Migrationshintergrund einen schlechteren Notendurchschnitt haben dürften als Bewerber ohne – wobei der Notenschnitt gemeinhin als ein zulässiges Merkmal zur Einschätzung der Berufseignung gilt.

Nur ein Zahlenspiel?

Dass man Fairnesskonflikte wie den obigen nicht als rein statistisches Gedankenspiel abtun sollte, zeigt das vielfach untersuchte Beispiel eines in den USA verwendeten Systems zur Einschätzung des Rückfallrisikos von Straftätern mit Namen COMPAS. So hat der amerikanische Think-Tank ProPublica gezeigt, dass COMPAS schwarzen Straftätern bedeutend öfters fälschlicherweise eine hohes Rückfallrisiko zuordnet als weißen, während weiße Straftäter wiederum bedeutend öfters inkorrekt als wenig rückfallgefährdet eingeordnet werden als schwarze. Der Algorithmus ist als den Maßen FPR und FNR zufolge unfair. Gleichzeitig stimmen Gesamtfehler und PPV einer anderen Studie zufolge nahezu überein, gemessen in diesen Maßen ist der Algorithmus also sehr wohl fair.

Was also tun?

So gerne wir auch eine einfache Antwort auf die Frage hätten, ob ein gegebenes ADMS zur Beurteilung von Menschen genutzt werden sollte oder nicht: fest steht nur, dass solche Antworten lediglich aus einem gesellschaftlichen Diskurs über die Kriterien, an denen Fairness gemessen wird, entstehen kann. In welchem Kontext sollten wir welche Art von (mathematisch notwendiger!) Ungleichbehandlung akzeptieren? Es mangelt jedoch häufig bereits an einer Grundvoraussetzung für eine solche öffentliche Auseinandersetzung: der Transparenz. Besonders wenn der Hersteller eines ADMS kommerzielle Interessen verfolgt, gelten die implementierten Fairnessmaße – so es sie denn überhaupt gibt – oftmals als Firmengeheimnis und sind der Öffentlichkeit nicht ohne Weiteres zugänglich. Auch eine statistische Auswertung, die zur Aufdeckung solcher statistischen Verzerrungen notwendig wäre, wird gemeinhin unterbunden soweit es geht. Hier ist es also an der Politik gesetzliche Rahmenbedingungen zu schaffen, die eine Überprüfbarkeit algorithmischer Entscheidungssysteme ermöglichen, ja gewährleisten. Aus der praktischen Unmöglichkeit einer allgemeinen Gleichbehandlung in jeder Hinsicht darf nicht die Aufgabe des allgemeinen Diskriminierungsverbots für den Bereich des ADMS-Einsatzes folgen. Es gilt also BürgerInnen darüber aufzuklären, dass Software zwar systematisch, aber nicht objektiv ist. Darüber hinaus müssen die Waffen aufgeklärter Regulatorik geschärft und einschlägige Forschung im Sinne des Gemeinwohls und Gemeinnutzens gefördert werden, sei es in Bezug auf alternative, aber hoch datenintensive (und -sensitive) Fairness-Konzeptionen (wie beispielsweise kontrafaktische Fairness), oder in Bezug auf Methoden der Zertifizierung von ADMS. Jedenfalls darf die Entscheidung weder den Entwicklern noch den Nutzern solcher Systeme überantwortet werden, sondern gehört eingebettet in einen breiten gesellschaftlichen und politischen Dialog. Wie heißt es so schön: Vertrauen ist gut, Kontrolle ist besser.