Zum Inhalt springen
Sonstiges

Gegenwart und Zukunft der KI-Diagnose in der Augenheilkunde (AI Diagnosis in Ophthalmology)

KI (künstliche Intelligenz) ist ein Oberbegriff für maschinelle Lernsysteme, die menschliche Intelligenz nachahmen. Deep Learning (DL) ist ein Teilbereich der KI, der mehrschichtige neuronale Netze nutzt, um fortgeschrittene Merkmale zu extrahieren und komplexe Entscheidungen zu treffen1).

Die Augenheilkunde ist eines der medizinischen Felder, in denen der Einsatz von KI am weitesten fortgeschritten ist. Fundusaufnahmen, OCT (optische Kohärenztomografie), Gesichtsfelduntersuchungen und andere Bilddaten sind standardisiert, sodass sich große Mengen an Trainingsdaten leichter sichern lassen. Die wichtigsten Einsatzgebiete der KI sind die folgenden drei Punkte.

  • Effizienzsteigerung beim Screening (Entlastung der Befundung durch Augenärzte)
  • Verbesserung des Zugangs in Regionen mit Facharztmangel
  • Vereinheitlichung der diagnostischen Genauigkeit (Verringerung von Unterschieden zwischen Einrichtungen)

2018 genehmigte die FDA das erste vollständig autonome KI-Diagnosesystem (IDx-DR), wodurch die praktische Anwendung der ophthalmologischen KI-Diagnose beschleunigt wurde2). IDx-DR kann von nicht-augenärztlichem Personal in der Inneren Medizin und in der Primärversorgung bedient werden und entscheidet automatisch, ob eine Überweisung an einen Augenarzt erforderlich ist2).

Deep-Learning-Systeme haben bei der Erkennung von diabetischer Retinopathie, Glaukom und AMD eine mit Spezialisten vergleichbare Genauigkeit gezeigt, und das Potenzial der KI-Diagnose mithilfe von Fundusfotos wurde demonstriert8).

Q Wie wird KI in der Augenheilkunde eingesetzt?
A

KI analysiert Bilder von Fundusfotos und OCT automatisch, um Krankheiten wie diabetische Retinopathie, Glaukom und altersbedingte Makuladegeneration zu erkennen. Screening-KI (vollständig autonom) kann von Nicht-Augenärzten bedient werden und wird für das Erstscreening in Regionen mit Fachärztemangel eingesetzt. Auch der Einsatz von KI-Chatbots (wie GPT-4) zur Beurteilung von augenheilkundlichem Wissen und zur Patientenaufklärung wird erforscht3). Sie gilt als Hilfsmittel, die endgültige Diagnose stellt ein Facharzt für Augenheilkunde.

KI in der Augenheilkunde wird nach Funktion und Autonomiestufe grob in die folgenden drei Typen eingeteilt.

Screening-KI (vollständig autonom)

Sie analysiert Fundusfotos automatisch und entscheidet, ob eine Überweisung nicht nötig ist oder erforderlich ist. Sie kann auch dort eingesetzt werden, wo keine Fachärzte für Augenheilkunde verfügbar sind, und wird auf die folgenden Erkrankungen angewendet2).

Diagnoseunterstützende KI (halbautonom)

Es handelt sich um ein System, das den Arzt bei der Bildbefundung unterstützt. Es wird für die AMD-Typklassifikation durch automatische Segmentierung der Schichtstrukturen der OCT sowie für die Schweregradeinschätzung des diabetischen Makulaödems (DME) eingesetzt.

KI-Chatbot (multimodal)

Dies ist eine Anwendung eines großen Sprachmodells, das Text (Anamnesedaten) und Bilder (Fundusfotos und OCT) gleichzeitig analysiert. Die ophthalmologischen Kenntnisse und die Bildinterpretationsfähigkeit von ChatGPT-4 wurden bewertet, und der Einsatz für Patientenaufklärung und Fernanamnese wird geprüft3).

KI-TypBeispielsystemZielGenauigkeitsmaß
Screening-KI (autonom)IDx-DR2)Diabetische RetinopathieSensitivität 87.2 %, Spezifität 90.7 %
Screening-KI (autonom)i-ROP DL5)ROPSensitivität 91 %, Spezifität 91 %
Screening-KI (autonom)EyeArt4)diabetische RetinopathieIm britischen NHS evaluiert und im Einsatz
KI-ChatbotChatGPT-43)ophthalmologischer WissenstestGesamtgenauigkeit 70%

3. Wichtige KI-Systeme und diagnostische Genauigkeit

Abschnitt betitelt „3. Wichtige KI-Systeme und diagnostische Genauigkeit“

2) ist das erste voll autonome KI-Diagnosesystem, das 2018 von der FDA zugelassen wurde. Nicht-augenärztliches Personal nimmt mit einer nicht mydriatischen Funduskamera Bilder auf, und die KI analysiert sie automatisch und entscheidet über eine Überweisung. Es wird zunehmend in der Primärversorgung eingesetzt.

Wichtige Leistungskennzahlen (pivotale Studie von Abràmoff et al. 2018)2):

  • Sensitivität: 87,2 % (Erkennung einer diabetischen Retinopathie ab mittlerem Schweregrad)
  • Spezifität: 90,7 %
  • Positiver Vorhersagewert: 49,7 %, negativer Vorhersagewert: 98,5 %

Mit IDx-DR ist ein autonomes DR-Screening in internistischen und hausärztlichen Einrichtungen möglich geworden, sodass Fälle, die eine Überweisung an eine augenärztliche Fachkraft benötigen, effizient ausgewählt werden können2).

Interpretation augenärztlicher Bilder durch einen KI-Chatbot (ChatGPT-4)

Abschnitt betitelt „Interpretation augenärztlicher Bilder durch einen KI-Chatbot (ChatGPT-4)“

Die Genauigkeit von GPT-4 bei Multiple-Choice-Fragen zur Augenheilkunde wurde bewertet3), und die Gesamtgenauigkeit beträgt 70 %.

  • Gesamtgenauigkeit: 70 % (299/428 Fragen)
  • Rangfolge der Genauigkeit nach Fachgebiet:
BereichGenauigkeit
Netzhaut77 % (am höchsten)3)
Augentumoren72 %3)
Pädiatrische Augenheilkunde68 %3)
Uveitis67 %3)
Glaukom61 %3)
Neuroophthalmologie58 % (am niedrigsten)3)
  • Bildbasierte Fragen: 65 %, nicht bildbasierte Fragen: 82 % (Unterschied 17 %, P < .001)3)

Dieser Unterschied zeigt, dass die Fähigkeit des Chatbots, Bilder zu interpretieren, weiterhin hinter seinem Verständnis von nicht bildbasiertem Text zurückbleibt. Es wurde darauf hingewiesen, dass die angemessene Integration multimodaler Chatbots in klinische Abläufe unerlässlich ist3).

IDx-DR (2018 von der FDA zugelassen)

Zielerkrankung: diabetische Retinopathie

Genauigkeit: Sensitivität 87,2 %, Spezifität 90,7 %

Merkmale: vollautonom. Kann von Nicht-Augenärzten bedient werden. Einsatz in Innerer Medizin und Primärversorgung2)

EyeArt (Eyenuk)

Zielerkrankung: diabetische Retinopathie

Genauigkeit: im britischen NHS evaluiert und praktisch eingesetzt

Merkmale: in Screening-Programme integriert4)

i-ROP DL (2018)

Zielkrankheit: Frühgeborenenretinopathie (ROP)

Genauigkeit: Sensitivität 91 %, Spezifität 91 %

Merkmal: automatische Erkennung von Plus-Erkrankung auf der Neugeborenen-Intensivstation5)

ChatGPT-4 (OpenAI)

Thema: Bewertung von augenärztlichem Wissen und Bildinterpretation

Genauigkeit: Gesamt-Trefferrate 70 % (Netzhaut 77 %, Neuroophthalmologie 58 %)

Merkmal: im Forschungsstadium für Anwendungen in der Patientenaufklärung und der Fernanamnese3)

Q Wie genau ist die KI-Diagnose in der Augenheilkunde?
A

Das KI-Screening für diabetische Retinopathie (IDx-DR) erreichte eine Sensitivität von 87.2 % und eine Spezifität von 90.7 %; die Genauigkeit war mit der Befundung durch Augenärzte vergleichbar2). Auch die KI für Frühgeborenenretinopathie (ROP) (i-ROP DL) erreichte eine Sensitivität von 91 % und eine Spezifität von 91 %5). Bei der Bewertung des augenärztlichen Wissens des KI-Chatbots (ChatGPT-4) lag die Gesamt-Trefferrate hingegen bei 70 %, im Bereich Neuroophthalmologie sogar nur bei 58 %3). In allen Fällen ist KI nur ein Hilfsmittel; wenn Auffälligkeiten festgestellt werden, ist eine genaue Untersuchung durch einen Augenarzt erforderlich.

Die Evidenz zur Kosteneffektivität des KI-gestützten augenärztlichen Screenings hat sich in mehreren Studien verdichtet1).

In der systematischen Übersichtsarbeit von Wu et al. (2021) bewerteten 11 von 15 Studien, die die Wirtschaftlichkeit des KI-gestützten DR-Screenings untersuchten, es als kosteneffektiv1).

  • NHS Schottland: jährliche Einsparungen von $403,200
  • Vereinigte Staaten (IDx-DR/EyeArt): 23.3 % Kostenreduktion pro Patient
  • Ländliches China: KI-Screening war $34.86 günstiger als menschliche Bewerter und verbesserte das QALY um 0.04
Region/SettingBewertung der KosteneffektivitätQuelle
NHS SchottlandJährliche Einsparungen von $403,200Wu 20211)
US-amerikanische Primärversorgung23.3 % Kostenreduktion pro PatientWu 20211)
ländliche Gebiete Chinas$34.86 günstiger als menschliche Bewerter, +0.04 QALYWu 20211)
Japan (AMD, Tamura et al. 2022)ICER $99,283/QALY (über dem Schwellenwert)Wu 20211)

Für ein autonomes KI-Screening wurde berichtet, dass es im Vergleich zu Telemedizin, Ophthalmoskopie und assistierter KI am kosteneffektivsten ist1). Bei einer Zahlungsbereitschaftsschwelle von $7 wurde es im Vergleich zum assistierten Screening als kosteneffektiv eingestuft1).

In einer japanischen Kohortensimulation (500,000 Personen ab 40 Jahren, Prävalenz 3.85 %) lag das ICER der KI-Screenings alle 3 Jahre bei $99,283/QALY ($92,890-$99,283)1). Das liegt über der japanischen Zahlungsbereitschaftsschwelle (etwa $47,286/QALY), daher bleibt die Kosteneffizienz des AMD-Screenings derzeit fraglich1). Mit Fortschritten in der KI-Technologie und sinkenden Kosten könnte sich dies jedoch künftig verbessern.

  • Verzerrung der Trainingsdaten: Bei Trainingsdaten, die auf bestimmte Ethnien oder Altersgruppen ausgerichtet sind, sinkt die Genauigkeit in anderen Gruppen1)
  • Abhängigkeit von der Bildqualität: Die Qualität von Fundusfotos (ob Pupillenerweiterung vorliegt, Medienopazitäten und Aufnahmebedingungen) beeinflusst die Genauigkeit der KI direkt
  • Schwierigkeiten bei seltenen Erkrankungen: Bei Erkrankungen mit wenigen Trainingsdaten lässt sich keine ausreichende Genauigkeit erreichen
  • Black-Box-Problem: Die Grundlage der KI-Entscheidungen ist undurchsichtig, sodass Ärztinnen und Ärzte ihrer Erklärungspflicht schwer nachkommen können1)
  • Geringe Genauigkeit in der Neuroophthalmologie: Die Trefferquote von ChatGPT-4 lag in der Neuroophthalmologie bei 58 % und damit am niedrigsten; bei der Interpretation komplexer Sehnervenerkrankungen gibt es Grenzen3)

Folgende ethische und rechtliche Probleme der KI in der Augenheilkunde werden genannt1).

  • Patientendatenschutz und Datensicherheit: Aufbau von Regelungen für die Cloud-Verwaltung und den internationalen Austausch von Fundusbildern
  • Haftung im Falle einer Fehldiagnose: Wer haftet bei einer KI-Fehldiagnose – die Ärztin bzw. der Arzt oder der KI-Hersteller
  • Regulierungs- und Zulassungsverfahren: Geeignete Bewertungsverfahren für KI-Medizinprodukte unter der FDA (USA), dem Arzneimittel- und Medizinproduktegesetz (Japan) usw.
  • Sicherstellung der Erklärbarkeit (explainability): Die Bedeutung, die Grundlage von KI-Entscheidungen so darzustellen, dass Ärztinnen, Ärzte und Patientinnen, Patienten sie verstehen können
  • Die anfänglichen Einführungskosten (Hardware, Software und Mitarbeiterschulung) können hoch sein1)
  • Der Unterschied in der Kosteneffizienz zwischen Ländern mit niedrigem und hohem Einkommen ist groß1)
  • Systeme zur Kostenerstattung durch Versicherungen werden in jedem Land weiterentwickelt, und die Umsetzung in Japan befindet sich noch in der Entwicklungsphase
Q Ist die KI-Augen­diagnose sicher?
A

Von Aufsichtsbehörden wie der FDA zugelassene Systeme (wie IDx-DR) haben strenge klinische Studien durchlaufen und eine gewisse Sicherheit wurde bestätigt2). Allerdings ist die KI-Diagnose nur ein Hilfsmittel, und die endgültige Diagnose sowie der Behandlungsplan sollten von einem Augenarzt festgelegt werden. Eine Selbstdiagnose allein mit einem KI-Chatbot (wie ChatGPT) wird nicht empfohlen. Die Genauigkeit der KI kann bei schlechter Bildqualität, seltenen Erkrankungen und im Bereich der Neuroophthalmologie abnehmen3). Wenn also ein Verdacht auf eine Auffälligkeit besteht, ist es wichtig, rasch einen Augenarzt aufzusuchen.

6. Technische Grundlagen: wie Deep Learning funktioniert

Abschnitt betitelt „6. Technische Grundlagen: wie Deep Learning funktioniert“
Ein Bild mit einer auf ein Fundusfoto überlagerten Grad-CAM-Wärmekarte. Die Bereiche, auf die sich die KI konzentriert, werden mit einer Farbskala für drei Kategorien gezeigt: normales Auge, Verdacht auf Glaukom und Verdacht auf diabetische Retinopathie
Ein Bild mit einer auf ein Fundusfoto überlagerten Grad-CAM-Wärmekarte. Die Bereiche, auf die sich die KI konzentriert, werden mit einer Farbskala für drei Kategorien gezeigt: normales Auge, Verdacht auf Glaukom und Verdacht auf diabetische Retinopathie
Arias-Serrano I, et al. Artificial intelligence based glaucoma and diabetic retinopathy detection using MATLAB — retrained AlexNet convolutional neural network. F1000Research. 2024;12:14. Figure 8. PMCID: PMC11143403. License: CC BY.
Vergleichsabbildung mit Grad-CAM-Wärmekarten von AlexNet, ResNet50 und GoogLeNet, die auf Fundusfotos (linke Spalte) eines normalen Auges (Non_D), eines Glaukomverdachts (Sus_G) und eines Verdachts auf diabetische Retinopathie (Sus_R) überlagert sind. Rot bis Gelb steht für höhere Aufmerksamkeit, Blau für niedrigere Aufmerksamkeit. Bei Glaukomfällen ist eine starke Aktivierung um die Sehnervenscheibe zu sehen, während bei diabetischer Retinopathie eine starke Aktivierung im Bereich von Makula bis hinterem Pol zu sehen ist. Dies entspricht den im Abschnitt „Technische Grundlagen: wie Deep Learning funktioniert“ behandelten Visualisierungstechniken von Grad-CAM und Convolutional Neural Networks.

Das Convolutional Neural Network (CNN: Convolutional Neural Network) ist die Kerntechnologie der KI-Diagnose in der Augenheilkunde.

  • Extrahiert automatisch hierarchisch Merkmale aus den eingegebenen Fundus- und OCT-Bildern
  • Flache Schichten erkennen Niedrigstufenmerkmale wie Konturen und Farbe, während tiefere Schichten abstrakte Merkmale wie Gefäßmuster, Blutungen, Ödeme und die Form der Sehnervenscheibe erkennen
  • Mit großen Mengen an Trainingsdaten wiederholt lernen (von Fachärzten gelabelte Referenzbilder)
  1. Datenerfassung: groß angelegte Sammlung von Fundusaufnahmen, OCT und Gesichtsfeldmessdaten
  2. Annotation: Augenärzte versehen jedes Bild mit Referenzlabels (Stadium und Befunde)
  3. Training und Optimierung: wiederholte Anpassung der Netzwerkparameter, damit sie sich der richtigen Antwort annähern
  4. Validierung und klinische Studien: Leistungsbewertung in externen Kohorten und Pilotversuche in der klinischen Praxis

Transferlernen (vortrainierte Modelle aus anderen Bereichen wie ImageNet auf Augenbilder anzuwenden) wird weithin als Methode eingesetzt, um auch bei begrenzten Trainingsdaten eine hohe Genauigkeit zu erreichen.

Auch die Forschung zur Erzeugung synthetischer Bilder mit GANs (generative adversarial networks) zur künstlichen Erweiterung von Trainingsdaten für seltene Erkrankungen schreitet voran.

Multimodale KI, die Text (Anamnesedaten) und Bilder (Fundusaufnahmen und OCT) gleichzeitig verarbeitet, wird mit der Entwicklung großer Sprachmodelle (wie GPT-4) zunehmend in der Augenheilkunde eingesetzt3). Zwar kann sie vielfältigere Informationen integrieren als eine CNN mit nur einer Modalität, doch ihre Fähigkeit zur Bildinterpretation ist nach wie vor schwächer als ihr Textverständnis3).

Vorhersage systemischer Erkrankungen anhand von Fundusfotos

Abschnitt betitelt „Vorhersage systemischer Erkrankungen anhand von Fundusfotos“

Die Analyse von Fundusfotos mit Deep Learning hat gezeigt, dass sich systemische Risikofaktoren wie Alter, Geschlecht, systolischer Blutdruck, Rauchvorgeschichte und HbA1c möglicherweise allein aus Fundusfotos vorhersagen lassen6). Auch für die Vorhersage des künftigen Risikos kardiovaskulärer Ereignisse (Myokardinfarkt und Schlaganfall) wurde eine gewisse Genauigkeit berichtet, sodass die Möglichkeit im Fokus steht, dass Fundusfotos als Fenster zum allgemeinen Gesundheitszustand dienen könnten. Auch KI-Modelle zur Vorhersage von Demenz, Nierenerkrankungen und Anämie befinden sich noch in der Forschungsphase6).

Durch Fundusaufnahmen mit einer kleinen, an ein Smartphone ansetzbaren Linse und KI-Analyse hat sich gezeigt, dass das DR-Screening bei Diabetikern in Indien praktisch umsetzbar ist7). Sowohl Sensitivität als auch Spezifität waren mit denen spezialisierter Funduskameras vergleichbar, und ein KI-Screening in Kombination mit kostengünstigen Allzweckgeräten könnte zur Verbreitung in Entwicklungsländern und ländlichen Regionen beitragen.

Durch die Integration von KI-Screening und Telemedizin wird eine Verbesserung des Zugangs zur Augenheilkunde in abgelegenen Regionen und Entwicklungsländern erwartet. Auch in Einrichtungen ohne Augenfacharzt kann KI eine Erstscreening durchführen und nur positive Fälle zur Fernbefundung durch einen Spezialisten weiterleiten, wodurch medizinische Ressourcen effizienter genutzt werden können.

Es wird daran geforscht, dass KI das Ansprechen auf anti-VEGF-Therapien (Ranibizumab, Aflibercept, Faricimab usw.) im Voraus vorhersagt und für jeden Patienten einen optimalen Behandlungsplan vorschlägt. Modelle, die die Therapieeffektivität anhand von OCT-Bildern vorhersagen, könnten dazu beitragen, die Zahl der Injektionen zu verringern und die Visusprognose zu verbessern.

Anwendungen generativer KI für Patientenaufklärung und Gesprächshilfe

Abschnitt betitelt „Anwendungen generativer KI für Patientenaufklärung und Gesprächshilfe“

Große Sprachmodelle (wie GPT-4) werden für Anwendungen wie die Erklärung von Erkrankungen für Patienten, die Erstellung von Aufklärungsunterlagen und die Unterstützung beim Anamnesegespräch erforscht3). Allerdings bleiben die Vermeidung von Fehlern und Verzerrungen in medizinischen Informationen sowie die Aufrechterhaltung der Arzt-Patienten-Beziehung Herausforderungen. Es wird nicht empfohlen, dass Patienten nur mithilfe von Chatbots Entscheidungen über Selbstdiagnose oder Selbstbehandlung treffen3).

  1. Wu JH, Liu TYA, Hsu WT, et al. Performance and limitation of machine learning algorithms for diabetic retinopathy screening: meta-analysis. J Med Internet Res. 2021;23(11):e23863.

  2. Abràmoff MD, Lavin PT, Birch M, Shah N, Folk JC. Pivotal trial of an autonomous AI-based diagnostic system for detection of diabetic retinopathy in primary care offices. NPJ digital medicine. 2018;1:39. doi:10.1038/s41746-018-0040-6. PMID:31304320; PMCID:PMC6550188.

  3. Mihalache A, Popovic MM, Guo MZ, et al. Performance of an upgraded artificial intelligence chatbot for ophthalmic knowledge assessment. JAMA Ophthalmol. 2024;142(3):234-241.

  4. Olvera-Barrios A, Heeren TF, Balaskas K, et al. Diagnostic accuracy of diabetic retinopathy grading by an artificial intelligence-enabled algorithm compared with a human standard reference. Diabetologia. 2023;66(5):857-866.

  5. Brown JM, Campbell JP, Beers A, et al. Automated diagnosis of plus disease in retinopathy of prematurity using deep convolutional neural networks. JAMA Ophthalmol. 2018;136(7):803-810.

  6. Poplin R, Varadarajan AV, Blumer K, Liu Y, McConnell MV, Corrado GS, et al. Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning. Nature biomedical engineering. 2018;2(3):158-164. doi:10.1038/s41551-018-0195-0. PMID:31015713.

  7. Rajalakshmi R, Subashini R, Anjana RM, et al. Automated diabetic retinopathy detection in smartphone-based fundus photography using artificial intelligence. Eye. 2018;32(6):1138-1144.

  8. Ting DSW, Cheung CY, Lim G, Tan GSW, Quang ND, Gan A, et al. Development and Validation of a Deep Learning System for Diabetic Retinopathy and Related Eye Diseases Using Retinal Images From Multiethnic Populations With Diabetes. JAMA. 2017;318(22):2211-2223. doi:10.1001/jama.2017.18152. PMID:29234807; PMCID:PMC5820739.

Kopieren Sie den Artikeltext und fügen Sie ihn in den KI-Assistenten Ihrer Wahl ein.