Föderiertes Lernen könnte es erlauben, Datenschutz und gemeinwohlorientierte Verwendung von KI in datenschutzkritischen Anwendungsszenarien miteinander zu vereinen. Wie soll das funktionieren und was ist dran?

Ein Kommentar von Kevin Baum und Markus Langer

Daten verhalten sich zu Künstlicher Intelligenz (KI) wie Öl zu Motoren: Ohne das eine läuft das andere nicht rund — oder gar nicht. Das stimmt zumindest für die vielgepriesenen Methoden des Maschinellen Lernens (ML). ML erlaubt es beispielsweise, selbstständig Muster in Daten zu erkennen (unüberwachtes Lernen) oder auf Grundlage großer Mengen ‚beschrifteter‘ (labeled“) Daten, Klassifikationsaufgaben zu erlernen (überwachtes Lernen). Ein Beispiel für unüberwachtes Lernen ist es, wenn eine solche angelernte KI in medizinischen Datensätzen aufschlussreiche Zusammenhänge aufdeckt (zum Beispiel zwischen genetischen Eigenheiten von Patienten, deren Lebensweisen und dem Ansprechen der Patienten auf bestimmte Therapien). Lernt eine Bilderkennungs-KI hingegen anhand von ausgewählten Trainingsdaten, zukünftig selbst Straßenschilder richtig zu kategorisieren, handelt es sich um ein Beispiel überwachten Lernens.

 

Gefahren, Chancen, Ängste, Hoffnungen

Die Möglichkeiten von KI werden manchmal überschätzt und es werden ‘Chancen’ postuliert, die unrealistisch sind. In anderen Fällen werden Risiken übertrieben und teils unbegründete Ängste geschürt. Oft werden reale Fehler in der Datenauswahl übersehen oder es wird blauäugig auf die Interaktion von menschlichen Experten und ‚künstlichen Experten‘ geblickt und dabei Fragen der Verantwortung leichtfertig übergangen. All das ist beklagenswert und es bedarf einer detaillierteren Betrachtung (der wir uns nach und nach in diesem Blog widmen wollen und werden).
Aber eine weitere Gefahr stellen wiederholt fälschlich in den Raum gestellte Dichotomien dar. Einige Beispiele:

  • Wollen wir Rechtsstaatlichkeit und moralische Verantwortung oder im Bereich der KI, der mehr und mehr intransparenter Black-Box-Algorithmen hervorbringen wird, endlich aufholen? (Dazu bald mehr.)
  • Brauchen wir KI-Bildung und Informatik als Pflichtfach oder muss der Fachunterricht schlicht durchorganisiert werden? (Siehe dazu den Artikel von Sarah Sterz und Torsten Becker)
  • Nehmen wir Datenschutz und informationelle Selbstbestimmung ernst oder wollen wir KI auch in der medizinischen Forschung endlich gewinnbringend einsetzen?

In all diesen Fällen (und in vielen mehr), wird fälschlicherweise ein Entweder-Oder postuliert, obwohl eigentlich ein Sowohl-Als-Auch die richtige Antwort ist. Anlässlich eines Artikels auf Technology Review wollen wir uns heute der letztgenannten falschen Gegenüberstellung widmen.

 

Privacy und Datenschutz vs. KI?

Richtig ist: gerade in Bereichen, in denen KI und ML vielversprechende gemeinwohlfördernde Anwendungen finden könnten, sind die Daten, die man dafür benötigt,  besonders heikel und folglich nur schwer in der notwendigen Menge zu bekommen und datenschutzrechtlich einwandfrei zu verarbeiten. Ein Beispiel dafür sind medizinische Daten, die beispielsweise benötigt würden, um die oben skizzierte Anwendung von der Erkennung der Therapie-Eignung umzusetzen. Dies ist ein bekanntes Problem und in der KI-Strategie der Bundesregierung findet sich entsprechend dieses Zitat:

Eine zentrale Herausforderung ist die umfassende Zusammenführung und Interoperabilität von Gesundheitsdaten aus Versorgung und Forschung. Der Aufbau von Datenintegrationszentren an Universitätskliniken im Rahmen der Medizininformatik-Initiative sei hier beispielhaft für die Zusammenführung von Daten aus verteilten Datenquellen genannt. Neben der Berücksichtigung der Anforderungen des Datenschutzes wird die Datensouveränität gezielt gefördert, damit Patientinnen und Patienten aktiv mitbestimmen können, wie ihre Daten gebraucht und weiterverwendet werden.”

— S. 18 der KI-Strategie der Bundesregierung

Das Problem besteht hier also schlicht darin, dass so sensible Informationen wie Gesundheitsdaten nicht ohne Weiteres von A nach B verschoben werden dürfen. Datenschutzrechtliche Bestimmungen sind sowohl für den Transfer der Daten als auch für die Speicherung und den Speichernden zu berücksichtigen. Aber müssen die Daten tatsächlich irgendwo zusammengeführt würden?

 

Föderiertes Lernen: Dezentralisierung als Lösung?

Wie traditionelles, zentralisiertes Maschinelles Lernen abläuft. Bild: Timo Speith

Genau das ist die Idee des föderierten Lernens. Dabei handelt es sich um eine Form dezentralen Lernens: Statt die Daten aus verschiedenen Quellen — hier: Krankenhäusern und Arztpraxen — zentral zusammenzuführen und dann dort aus ihnen ein Modell anzulernen, lernt man vor Ort aus den dort verfügbaren Daten jeweils ein lokales Modell an. Da man damit für den jeweiligen Lernprozess weniger Daten zur Verfügung hat, kann man natürlich lokal nicht die Qualität erreichen, die man mit allen Daten erreichen könnte. Aber man gibt sich auch nicht mit diesen lokalen Modellen zufrieden, sondern führt die lokal angelernten Modelle zusammen. So müssen nicht die Daten übertragen werden, sondern die Ergebnisse des Lernens: die Modelle. Das fertige Gesamtmodell wird wieder an die lokalen Lernstationen verteilt, die dann mit den dort neu anfallenden Daten weiterlernen können. So entstehen iterativ immer bessere Modelle, ohne dass die heiklen Daten fließen müssten.

Wie föderiertes, dezentralisiertes Maschinelles Lernen abläuft. Bild: Timo Speith

Was einfach klingt, ist in der Realität ein anspruchsvolles Ingenieursproblem. Die klassischen Optimierungsalgorithmen, die das Lernen erst ermöglichen, sind nicht in dem notwendigen Sinne zerleg- und kombinierbar. Ein Google-Team hat das Problem 2017 weitgehend gelöst, um individuelles Nutzerverhalten in ein Gesamtmodell zu integrieren. Ohne sich zu weit aus dem Fenster zu lehnen, dürfte es Google dabei vor allem darum gegangen sein, möglichst viel Lernleistung (und damit Stromverbrauch) auf die Geräte der Endnutzer auszulagern. Gleichzeitig aber erhöht dieses Vorgehen den Grad an Privacy ganz nebenher.

Föderiertes Lernen könnte also eine Lösung für viele Datenschutzprobleme bei der Nutzung von sensiblen Daten für ML-Anwendungen sein. Konkret wird durch föderiertes Lernen das Sammeln von Daten an einer zentralen Stelle umgangen. Es bestehen jedoch weiterhin Herausforderungen, die zu Problemen mit den resultierenden Algorithmen führen könnten.

 

Ein Problem weniger — viele Herausforderungen verbleiben

Ein Beispiel hilft, um zu sehen, dass noch einige Herausforderungen bleiben. Gehen wir dafür einmal davon aus, dass die Krankendaten von Krankenhäusern überall in Europa genutzt werden sollen, um daraus Algorithmen anzulernen. Die Krankenhausdichte in skandinavischen Ländern unterscheidet sich eventuell von der in südosteuropäischen Ländern. Ähnliches gilt für die Ausstattung der Krankenhäuser und die Anbindung an die digitale Infrastruktur. Geht man nun unbedacht bei der Erhebung der Daten oder dem Training der Algorithmen vor, könnte es sein, dass die Ergebnisse und daraus folgenden Empfehlungen entsprechend verzerrt sind. Die Daten aus manchen Ländern können überrepräsentiert sein oder es entstehen weitere systematische Verzerrungen im Rahmen der Datenerhebung. In anderen Worten: Wenn jedes Krankenhaus in Schweden bei der Datensammlung beteiligt ist aber nur jedes dritte in Ungarn, könnte dies zu Verzerrungen (Bias) in den Algorithmen führen. Wenn nur Personen unter 50 in Erhebungen in Ungarn einfließen, während in Schweden eine repräsentative Stichprobe zwischen 16 und 85 erhoben wird, könnte dies ebenfalls zu Verzerrungen in den Algorithmen führen. Inwiefern dies bedenkliche Auswirkungen auf die Qualität und Aussagekraft der Modelle hätte, ist mindestens eine offene Frage, die nicht vernachlässigt werden darf. Insbesondere in Anbetracht der Black-Box-Problematik vieler ML-Techniken.

Dieses Problem kann auch innerhalb Deutschlands konkretisiert werden. Beispielsweise leben in ländlichen Regionen Deutschlands im Vergleich zu Städten im Schnitt eher ältere Menschen. Somit unterscheidet sich auch die Zusammensetzung der Patienten in ländlichen Krankenhäusern von denen in städtischen Krankenhäusern. Auch die Ausstattung von ländlichen Krankenhäusern könnte sich systematisch von den städtischen unterscheiden. Wenn ländliche Krankenhäuser bei der Datensammlung für föderales Lernen unterrepräsentiert sind, könnte dies womöglich zu Herausforderungen bei der Entwicklung vertrauenswürdiger Algorithmen führen.

Diese sogenannten „Sampling Probleme“, also Probleme die bei der Datenerhebung auftauchen können, sind allerdings keine unlösbaren Herausforderungen und es ist schon gar kein Problem des föderierten Lernens: Der Datensatz, aus dem gelernt wird, bliebe schließlich derselbe, egal ob man zentralisiert oder dezentralisiert lernt. Wie bei der Entwicklung von jeder Art von ML-Algorithmus (und bei jeder Art von Datenerhebung) sollte man sich bereits bei der Datenerhebung besonders viel Mühe geben, um eine möglichst gute Datenqualität zu erreichen. Das heißt: repräsentative Stichproben, kontrollierte Datenerhebung, Qualitätskontrollen und Beachtung potentiell systematischer Unterschiede bei den einzelnen Stichproben aus denen die Daten kommen (z.B. einzelne Krankenhäuser). Diese Datenqualität kann beispielsweise durch gezielte Förderung von einheitlichen Erhebungsstandards oder einheitlichen Datenqualitätsmanagementinstanzen erreicht werden. Die Potenziale des föderierten Lernens sind es sicherlich Wert, Anstrengungen in das Datenqualitätsmanagement zu stecken statt aus Furcht vor möglichen Problemen KI-lose Alternativen zu wählen. Kurzum: Föderiertes Lernen schickt sich tatsächlich an, ein notwendigerweise zu lösendes Problem zu lösen — das Privacy-Problem —, löst damit aber nicht alle wichtigen Probleme. Was folgt daraus? Auf jeden Fall sollten wir uns den verbleibenden Problemen nun intensiviert widmen (aus Perspektive der Forschung) und föderiertes Lernen explizit fordern und fördern (aus regulatorischer, politischer Perspektive).

Es ist jedoch deutlich zu betonen, dass beim föderierten Lernen im Vergleich zu traditionellen Erhebungen innerhalb einzelner Institutionen zusätzliche Herausforderungen hinsichtlich der Datensammlung an weiteren Stellen entstehen könnten. Statt einer Verzerrung der Datengrundlage durch den Fakt, dass nur besonders motivierte Patienten überhaupt an Datenerhebungen innerhalb eines Krankenhauses teilnehmen, könnten Verzerrungen aufgrund der Tatsache entstehen, dass nur besonders motivierte (oder informierte) Krankenhäuser an Datenerhebungen partizipieren (Stichwort: Unikliniken, die sich eher an Forschung beteiligen). Das gilt insbesondere, wenn die Infrastruktur des föderierten Lernens tatsächlich ML/KI-Experten an Krankenhäusern erfordern würden wie es im Technology Review-Artikel nahegelegt wird (was unserer Meinung nach aber nicht zwingend der Fall sein müsste, wenn man die richtigen Strukturen und Prozesse etabliert).

Statt beim Trainieren eines Algorithmus an einer Klinik, könnten Biases an jeder Klinik innerhalb der Trainingsphase der Algorithmen unentdeckt bleiben und sich dann bei der Aggregierung der Algorithmen gegenseitig verstärken. Gleichzeitig können auch erst bei dieser großflächigen Aggregierung Biases entstehen, die vielleicht nur Implikationen für einzelne Länder oder Krankenhäuser haben und in gut repräsentierten Ländern oder Regionen gar nicht zum Tragen kommen. Kurzum: Die Komplexität der Entwicklung von nachvollziehbaren und vertrauenswürdigen Algorithmen wird durch föderales Lernen nicht geringer, das Gegenteil steht gar zu befürchten. Gerade im Gesundheitssektor ist Vertrauen in Entscheidungen sowie deren Hinterfragbarkeit aber besonders wichtig.

 

Fazit

Die Idee, föderiertes Lernen einzusetzen, um das mühsame und datenschutzrechtlich anspruchsvolle Sammeln von medizinischen Daten überflüssig zu machen, ist vielversprechend. Sie zeigt außerdem, dass ethisch-gesellschaftliche Probleme, die mit der Entwicklung und der Anwendung von Technologien einhergehen, gelegentlich eine technische Lösung haben. Es bleibt aber wichtig und richtig, daraus nicht zu schließen, dass alle Herausforderungen in diesem Bereich auf einen Schlag gelöst würden. Es gilt darauf zu achten, ob man sich neue Probleme ‘einfängt’. Im Falle des föderierten Lernens ergeben sich zwar neue Anforderungen, in unseren Augen fällt die Gesamtbilanz aber klar positiv aus. Wir empfehlen, konkrete Projekte zu fördern und evaluativ zu begleiten und im Erfolgsfall regulatorisch zu fördern und zu fordern. Dann gilt es das Augenmerk verstärkt auf Probleme der Datenerhebung zu legen und in die Erforschung der Erklärbarkeit von KI zu investieren. Europäische KI muss unsere Grundwerte akzeptieren, Chancen nutzen und Risiken minimieren. Auf dem Weg dorthin gilt es noch viele Herausforderungen zu meistern. Föderiertes Lernen zeigt, dass Fortschritte möglich sind.

——————————————

In Kommentaren beziehen wir zu aktuellen Diskussionsbeiträgen Stellung und versuchen so, zu deren Einordnung beizutragen. Kommentare sind kürzer und bleiben stärker an der Oberfläche als unsere ausführlicheren Debattenbeiträge. Sie sollen helfen, unsere allgemeinen Themen an die tagesaktuellen Entwicklungen anzubinden.