Die Wurzeln der Künstlichen Intelligenz (KI) gehen bis in das Jahr 1936 zurück. Der britische Mathematiker Alan Turing beschrieb damals das Gedankenmodell einer Rechenmaschine (Turingmaschine), die wie ein heutiger Computer funktioniert: Sie liest Informationen von einem Datenträger ein, verarbeitet sie nach einem vorgegebenen Algorithmus und gibt das Ergebnis wieder aus.
Turing bewies damals, dass eine solche Maschine Denkvorgänge durchführen könnte, die sich in -Algorithmen fassen lassen. Damit war die Grund-idee für KI geboren.
Auf den Arbeiten Turings aufbauend entwickelten Wissenschaftler die Hypothese, Denken sei nichts anderes als Informationsverarbeitung, nichts anderes als ein Rechenvorgang und nicht abhängig von einem Gehirn.
1956 führten Wissenschaftler in den USA ein Seminar durch, das sie „Künstliche Intelligenz“ nannten. Inhalt des Seminars waren Rechner, die nicht nur Rechenoperationen durchführten, sondern sprechen oder Spiele spielen konnten. Ein Teilnehmer des Seminars, Arthur Samuel, präsentierte ein Programm für das Dame-Spiel, das nicht nur die Regeln beherrschte, sondern auch die möglichen Positionen bewertete. Das Programm spielte gegen sich selbst und beurteilte, ob die Positionsbewertung zutreffend war oder geändert werden musste. Es dauerte nicht lang, bis der Rechner Samuel im Spiel regelmäßig schlug. Das erste Mal hatte ein Mensch einem Computer etwas beigebracht, und der Rechner wurde darin besser als sein Programmierer.
Vom Spiel zur Medizin
1972 entwickelte Ted Shortcliffe an der Stanford Universitiy das medizinische Expertensystem „MYCIN“, das Blutinfektionen und Meningitis mit Antibiotika behandeln sollte. Dafür mussten zahlreiche Parameter, wie Erregertyp, Krankheitsverlauf und Laborparameter berücksichtigt werden. Das Problem wurde so komplex, dass man begann, ein Expertensystem zu entwickeln. Die Entscheidungen des Expertensystems waren so „gut“ wie die eines Experten und besser als die eines „Nicht-Experten“, jedoch behandelte das System einen fiktiven Cholerapatienten wie einen Sepsispatienten – es erkannte seine Grenzen nicht. Das ist nicht ungewöhnlich für hochspezialisierte Expertensysteme („Cliff and Plateau“-Effekt).
Mit der Zeit stellte sich heraus, dass es zu aufwändig und kompliziert war, beispielsweise medizinisches Fachwissen für Expertensysteme in Algorithmen zu fassen und zu programmieren. Selbstständig lernende Computersysteme umgehen dieses Problem und können heute beispielsweise maligne Melanome so sicher diagnostizieren wie ein spezialisiertes Zentrum.
Deep-Learning
Derzeit stehen sogenannte neuronale Netze im Vordergrund von Forschung und Entwicklung. Sie können aus Rohdaten, z.B. aus Fotos, lernen, welche Eigenschaften charakteristisch sind.
Wenn ein solches System lernt, beispielsweise eine Katze zu erkennen, bekommt es zunächst eine sehr große Menge von Katzenfotos vorgelegt, die Pixel für Pixel eingelesen werden. In mehreren Schritten sammelt der Computer auf diese Weise eine große Anzahl an Eigenschaften, an denen er das Foto einer Katze erkennen kann. Wird ihm jetzt ein unbekanntes Bild vorgelegt, gleicht er die Eigenschaften des Bildes mit den gelernten Eigenschaften ab und kann so beurteilen, ob auf dem Bild eine Katze abgebildet ist oder nicht.
In der Medizin wurden solche Systeme zuerst eingesetzt, um MRT-Bilder auszuwerten, und z.B. verschiedene Formen von Alzheimer zu erkennen. Obwohl der Computer nur zwei-dimensionale Bilder auswertete, waren seine Ergebnisse besser als die damalige Standard-Methode mit manuell ausgewählten dreidimensionalen Bildern.
Im Zuge von Big-Data-Auswertungen arbeitet man seit einiger Zeit daran, elektronische Gesundheitsaufzeichnungen mit neuronalen Netzwerken auszuwerten, um lernende Systeme durch diese Daten darauf zu trainieren, klinische Voraussagen zu treffen, z.B. Krankheiten auf der Basis des klinischen Status eines Patienten vorherzusagen.
Trotz der großen Erfolge sind doch einige Probleme, die die KI mit sich bringt, noch ungelöst:
Deep-Learning-Systeme brauchen eine sehr große Datenmenge, um zu lernen. Die Frage ist, wie viele Daten brauchen sie mindestens um verlässliche Ergebnisse zu erzielen? Bisher gibt es keine sicheren Richtlinien dafür, als grober Anhaltspunkt sollten es zehnmal so viele Datensätze sein, wie es Parameter in dem lernenden System gibt. Deswegen sind Deep-Learning-Systeme heute auf einzelnen, sehr eng begrenzten medizinischen Gebieten erfolgreich, in denen es große Datenmengen gibt.
Jedoch reicht die Datenmenge nicht aus, um ein wirklich umfassendes medizinisches Deep-Learning-System zu trainieren, denn Krankheiten und ihre Variabilität gut zu verstehen, ist ein sehr komplexes Problem. Die gewaltige Menge an medizinischen Daten, die derzeit notwendig wäre, ein umfassendes medizinisches KI-System zu trainieren, ist schlichtweg nicht vorhanden.
Problem Datenqualität
Ein weiteres Problem ist die Datenqualität: Anders als andere Daten sind medizinische Daten sehr heterogen, oft unsicher, unvollständig und mit starkem Grundrauschen behaftet. Um ein KI-System mit so sehr variierenden Daten zu trainieren, müssen fehlende Daten, redundante Daten und das Pareto-Prinzip (80% der Ergebnisse werden mit 20% des Gesamtaufwandes erreicht) berücksichtigt werden. Ein weiteres Problem ist, dass sich Krankheiten mit der Zeit verändern. Viele der in der Medizin derzeit eingesetzten KI-Systeme können mit zeitlichen Veränderungen nicht um-gehen, sie können nicht unterscheiden zwischen alten und aktuellen Daten, daher sind beide gleich stark gewichtet. Deswegen müssen in Zukunft vermehrt Systeme in der Medizin eingesetzt -werden, die den Zeitfaktor berücksichtigen.
Und schließlich müssen KI-Systeme in der Medizin „erklären“ können, wie sie zu ihrer Einschätzung gekommen sind, damit der Arzt entscheiden kann, ob er dem Vorschlag folgen möchte oder nicht.
Roland Müller-Waldeck
Quellen:
Miotto R et al. Deep learning for healthcare: review, opportunities and challenges. Briefings in Bioinformatics, 19(6), 2018, 1236–1246; doi: 10.1093/bib/bbx044.
Meyer R. Künstliche Intelligenz: Karzinome zuverlässiger erkennen als Radiologen. Dtsch Arztebl 2019; 116(23-24): [32]
Haenssle HA et al. Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists Annals of Oncology, Volume 29, Issue 8, August 2018, Pages 1836–1842; https://doi.org/10.1093/annonc/mdy166
Liming Hu et al. An Observational Study of Deep Learning and Automated Evaluation of Cervical Images for Cancer Screening. JNCI: Journal of the National Cancer Institute, Volume 111, Issue 9, September 2019, Pages 923–932, https://doi.org/10.1093/jnci/djy225
Xiaoxuan Liu et al. A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis. Lancet Digital Health 2019; 1: e271–97 Published Online September 24, 2019 doi.org/10.1016/ S2589-7500(19)30123-2