Newsletter

Medizin

Swarm Intelligenz
Quelle: Warnat-Herresthal S et al. (1)

KI: Swarm Learning schützt die Daten

Die medizinische Forschung braucht Patientendaten, um Wissen zu erzeugen. Das gilt besonders für künstliche Intelligenz (KI). Auf der anderen Seite zählen Gesundheitsdaten zu den sensibelsten Daten überhaupt und einzelne Datensätze dürfen nicht mit realen Personen in Verbindung gebracht werden können. Swarm learning könnte die Lösung sein.

Bei einer klinischen Studie werden Daten anonymisiert, damit sie nicht mit einer tatsächlichen Person in Verbindung gebracht werden können. Weil jedoch die Rechenleistung von Computern inzwischen rasant gestiegen ist und jeder von uns eine breite Datenspur im Internet hinterlässt, kann Anonymisierung allein den Datenschutz nicht mehr gewährleisten. So ist es zum Beispiel möglich, eine Person mit Informationen über Alter, Geschlecht und Wohnort eindeutig zu identifizieren, wenn der Wohnort klein genug ist.

Eine weitere Stufe des Datenschutzes sind aggregierte Daten. Für sie werden Daten mehrerer Patienten gemittelt ausgewertet. So kann man keine Rückschlüsse auf einzelne Patienten ziehen.

Um eine KI zu trainieren, sind allerdings Einzelbilder nötig. Prof. Andreas Maier, Erlangen-Nürnberg, nutzt dazu anonymisiertes Material aus Datenbanken. Doch die Qualität der Daten reicht laut Maier nicht unbedingt aus: So seien z.B. bei der Bilddatenbank der  National Institutes of Health (NIH) 10% der automatisch generierten Bildbeschreibungen falsch. Weil aber die KI lernt, indem sie nach Übereinstimmungen zwischen allen Bildern der gleichen Beschreibung sucht, ist das für Maier ein Problem.

Federated Learning: Zentrale KI besucht die Daten

Federated Learning versucht das Problem des Datenschutzes zu lösen. Bei dieser Methode läuft die KI auf einem zentralen Server, „besucht“ die verschiedenen Stellen, an denen die Daten gespeichert sind (Site, z.B. ein Krankenhaus) und trainiert mit den Daten, ohne sie zu duplizieren. Also werden nicht die Patientendaten transportiert, sondern nur die Lern-Parameter der KI, so dass keine Rückschlüsse auf einzelne Patienten möglich sind. Auch bei dieser Methode sei es schwierig, die Datenqualität zu beurteilen und Fehler zu erkennen, so Maier.  Bei dieser Methode bleiben zwar die Datensätze an Ort und Stelle, aber zentrale Server werten sie aus.

Swarm Learning besitzt keine zentrale Struktur

Bei Swarm Learning gibt es diese zentrale Instanz nicht mehr. Stattdessen verfügen alle teilnehmenden Sites über die gleiche KI. Sie wertet die Daten an dieser Site aus. Die Parameter, die diese Auswertungen zusammenfassen, werden an die KIs der anderen Sites weitergegeben, so dass alle den gleichen Wissensstand haben. Somit ist eine zentrale Organisation überflüssig, alle Sites des Schwarms sind gleichberechtigt und durch einen Vertrag an den Datenschutz gebunden.

Roland Müller-Waldeck

Legende zur Abbildung: Bei Federated Learning arbeitet die KI in einer übergeordneten Cloud und wertet die Daten verschiedener Sites aus. Die Organisation, der die Cloud und die KI gehören, besitzt auch die Daten, die darin enthalten sind. Bei Swarm Learning trainiert jede Site die KI mit ihren eigenen Daten und gibt die Parameter, die diese Auswertungen zusammenfassen, an die KIs der anderen Sites  weiter (nach 1).

Quellen:
Virtuelles Pressebriefing des Science media Center „Wie trainieren Forschende Algorithmen mit medizinischen Daten, ohne den Datenschutz zu gefährden? Technische und ethische Aspekte“ am 17.6.2021.
1. Warnat-Herresthal S et al. Swarm Learning for decentralized and confidential clinical machine learning. Nature 594: 265. doi.org/10.1038/s41586-021-03583-3