Il presente e il futuro della diagnosi con IA in oftalmologia (AI Diagnosis in Ophthalmology)

Punti chiave in breve

L’oftalmologia è uno dei campi medici in cui l’applicazione dell’IA (intelligenza artificiale) è più avanzata, e dati di immagine standardizzati come le foto del fondo oculare e la OCT sono adatti all’apprendimento dell’IA.
Nel 2018, la FDA ha approvato il primo sistema diagnostico AI completamente autonomo (IDx-DR), e l’automazione dello screening della retinopatia diabetica è entrata nella fase di utilizzo pratico²⁾.
Nella valutazione di un chatbot AI (ChatGPT-4) sulle conoscenze in oftalmologia, l’accuratezza complessiva era del 70%, con differenze per area: retina 77% (la più alta) e neuro-oftalmologia 58% (la più bassa)³⁾.
Lo screening con AI per la retinopatia diabetica è stato giudicato costo-efficace in 11 studi su 15, e l’NHS scozzese ha riportato un risparmio annuo di circa 400.000 dollari¹⁾.
L’accuratezza dell’AI presenta ancora criticità nella qualità delle immagini, nel bias dei dati di addestramento e nella gestione delle malattie rare¹⁾.
La diagnosi con AI è uno strumento di supporto, mentre la diagnosi finale e il piano terapeutico sono stabiliti da uno specialista in oftalmologia.
La ricerca sull’AI che prevede malattie sistemiche come il rischio cardiovascolare e la demenza dalle foto del fundus sta avanzando⁶⁾.

1. Che cos’è la diagnosi oftalmologica con AI

AI (intelligenza artificiale) è il termine generale per i sistemi di machine learning che imitano l’intelligenza umana. Il deep learning (DL) è un sottoinsieme dell’AI che utilizza reti neurali multistrato per estrarre caratteristiche avanzate ed eseguire valutazioni complesse¹⁾.

L’oftalmologia è una delle aree mediche in cui l’applicazione dell’AI è più avanzata. Le foto del fundus, l’OCT (tomografia a coerenza ottica), gli esami del campo visivo e altri dati di imaging sono standardizzati, quindi è più facile raccogliere grandi quantità di dati di addestramento. I principali obiettivi dell’AI sono i seguenti 3 punti.

Migliorare l’efficienza dello screening (ridurre il carico di refertazione degli specialisti in oftalmologia)
Migliorare l’accesso nelle aree con carenza di specialisti
Uniformare l’accuratezza diagnostica (ridurre le differenze tra le strutture)

Nel 2018, la FDA ha approvato il primo sistema diagnostico AI completamente autonomo (IDx-DR), accelerando l’uso pratico della diagnosi oftalmologica con AI²⁾. IDx-DR può essere utilizzato da personale non oculistico in medicina interna e nelle cure primarie e determina automaticamente se sia necessario il rinvio a uno specialista in oftalmologia²⁾.

I sistemi di deep learning hanno mostrato un’accuratezza paragonabile a quella degli specialisti nella rilevazione di retinopatia diabetica, glaucoma e AMD, e il potenziale della diagnosi con IA utilizzando fotografie del fundus è stato dimostrato⁸⁾.

Q Come viene usata l’IA in oftalmologia?

L’IA analizza automaticamente le immagini delle fotografie del fundus e dell’OCT per rilevare malattie come retinopatia diabetica, glaucoma e degenerazione maculare legata all’età. L’IA di screening (completamente autonoma) può essere utilizzata da non oculisti ed è impiegata per lo screening iniziale nelle aree con carenza di specialisti. Sono inoltre in corso ricerche sull’uso di chatbot IA (come GPT-4) per valutare le conoscenze di oftalmologia e per l’educazione dei pazienti³⁾. È considerata uno strumento di supporto, mentre la diagnosi finale è effettuata da uno specialista in oftalmologia.

2. Tipi di IA e malattie target

L’IA in oftalmologia si divide in linea generale nei seguenti tre tipi, in base alla funzione e al livello di autonomia.

IA di screening (completamente autonoma)

Analizza automaticamente le fotografie del fundus e determina se il rinvio non è necessario o se è necessario. Può funzionare anche in assenza di specialisti in oftalmologia ed è applicata alle seguenti malattie²⁾.

Retinopatia diabetica (DR): la più studiata e la più adottata
Degenerazione maculare legata all’età (AMD): rilevazione di drusen e neovascolarizzazione
Glaucoma: analisi automatica della testa del nervo ottico e dello strato delle fibre nervose
Retinopatia del prematuro (ROP): screening neonatale in terapia intensiva neonatale
Retinoblastoma: monitoraggio del fundus nei bambini

IA di supporto alla diagnosi (semi-autonoma)

È un sistema che aiuta il medico nell’interpretazione delle immagini. Viene utilizzato per la classificazione dei sottotipi di AMD tramite la segmentazione automatica della struttura a strati dell’OCT e per la valutazione della gravità dell’edema maculare diabetico (DME).

Chatbot AI (multimodale)

È un’applicazione di un grande modello linguistico che analizza contemporaneamente il testo (informazioni dell’anamnesi) e le immagini (fotografie del fundus e OCT). Le conoscenze oftalmologiche e la capacità di interpretazione delle immagini di ChatGPT-4 sono state valutate, e se ne sta considerando l’uso per l’educazione del paziente e l’anamnesi a distanza³⁾.

Tipo di IA	Sistema rappresentativo	Obiettivo	Metrica di accuratezza
IA di screening (autonoma)	IDx-DR²⁾	Retinopatia diabetica	Sensibilità 87,2%, specificità 90,7%
IA di screening (autonoma)	i-ROP DL⁵⁾	ROP	Sensibilità 91%, specificità 91%
IA di screening (autonoma)	EyeArt⁴⁾	retinopatia diabetica	Valutato e in uso nel NHS del Regno Unito
chatbot IA	ChatGPT-4³⁾	valutazione delle conoscenze in oftalmologia	accuratezza complessiva 70%

3. Principali sistemi di IA e accuratezza diagnostica

IDx-DR (Digital Diagnostics)

²⁾ è il primo sistema diagnostico di IA completamente autonomo approvato dalla FDA nel 2018. Personale non oculistico acquisisce le immagini con una fotocamera del fondo oculare non midriatica e l’IA le analizza automaticamente decidendo se inviare il paziente a uno specialista. Il suo impiego si sta diffondendo nelle strutture di assistenza primaria.

Principali indicatori di performance (studio cardine di Abràmoff et al. 2018)²⁾:

Sensibilità: 87,2% (rilevazione della retinopatia diabetica di grado moderato o superiore)
Specificità: 90,7%
Valore predittivo positivo: 49,7%, valore predittivo negativo: 98,5%

IDx-DR ha reso possibile lo screening autonomo della DR nelle strutture di medicina interna e di assistenza primaria, consentendo di selezionare in modo efficiente i casi che richiedono l’invio a un oculista²⁾.

Interpretazione delle immagini oftalmologiche da parte di un chatbot AI (ChatGPT-4)

È stata valutata l’accuratezza di GPT-4 nelle domande a scelta multipla di oftalmologia³⁾ e l’accuratezza complessiva è del 70%.

Accuratezza complessiva: 70% (299/428 domande)
Classifica dell’accuratezza per ambito:

Ambito	Accuratezza
Retina	77% (più alta)³⁾
Tumori oculari	72%³⁾
Oftalmologia pediatrica	68%³⁾
Uveite	67%³⁾
Glaucoma	61%³⁾
Neuro-oftalmologia	58% (più bassa)³⁾

Domande basate su immagini: 65%, domande non basate su immagini: 82% (differenza del 17%, P < .001)³⁾

Questa differenza mostra che la capacità del chatbot di interpretare le immagini è ancora inferiore alla sua comprensione del testo non basato su immagini. È stato sottolineato che una corretta integrazione dei chatbot multimodali nei contesti clinici è essenziale³⁾.

IDx-DR (approvato dalla FDA nel 2018)

Malattia target: retinopatia diabetica

Accuratezza: sensibilità 87,2%, specificità 90,7%

Caratteristiche: completamente autonomo. Può essere utilizzato da non oculisti. Usato in medicina interna e assistenza primaria²⁾

EyeArt (Eyenuk)

Malattia target: retinopatia diabetica

Accuratezza: valutato e adottato operativamente nel NHS del Regno Unito

Caratteristiche: integrato nei programmi di screening⁴⁾

i-ROP DL (2018)

Malattia target: retinopatia del prematuro (ROP)

Accuratezza: sensibilità 91%, specificità 91%

Caratteristica: rilevamento automatico della malattia plus in terapia intensiva neonatale⁵⁾

ChatGPT-4 (OpenAI)

Ambito: valutazione delle conoscenze di oftalmologia e dell’interpretazione delle immagini

Accuratezza: percentuale complessiva di risposte corrette 70% (retina 77%, neuro-oftalmologia 58%)

Caratteristica: in fase di ricerca per applicazioni nell’educazione del paziente e nelle visite a distanza³⁾

Q Quanto è accurata la diagnosi oculistica con l'IA?

L’IA per lo screening della retinopatia diabetica (IDx-DR) ha mostrato una sensibilità dell’87.2% e una specificità del 90.7%, con un’accuratezza paragonabile alla lettura di uno specialista in oftalmologia²⁾. Anche l’IA per la retinopatia del prematuro (ROP) (i-ROP DL) ha raggiunto una sensibilità del 91% e una specificità del 91%⁵⁾. Invece, nella valutazione delle conoscenze oftalmologiche del chatbot IA (ChatGPT-4), la percentuale complessiva di risposte corrette era del 70%, e nel campo della neuro-oftalmologia era più bassa, al 58%³⁾. In tutti i casi, l’IA è solo uno strumento di supporto e, se viene rilevata un’anomalia, è necessario un esame approfondito da parte di uno specialista in oftalmologia.

4. Costo-efficacia ed economia sanitaria

Le evidenze sul rapporto costo-efficacia dello screening oftalmologico con IA si sono accumulate in diversi studi¹⁾.

Screening della retinopatia diabetica (DR)

Nella revisione sistematica di Wu et al. (2021), 11 dei 15 studi che valutavano l’economia dello screening DR con IA lo hanno giudicato costo-efficace¹⁾.

NHS Scozia: risparmio annuo di $403,200
Stati Uniti (IDx-DR/EyeArt): riduzione dei costi del 23.3% per paziente
Cina rurale: lo screening con IA costava $34.86 in meno rispetto ai valutatori umani e migliorava il QALY di 0.04

Regione/contesto	Valutazione del costo-efficacia	Fonte
NHS Scozia	Risparmio annuo di $403,200	Wu 2021¹⁾
Cure primarie negli Stati Uniti	Riduzione dei costi del 23.3% per paziente	Wu 2021¹⁾
aree rurali della Cina	$34.86 in meno rispetto ai valutatori umani, +0.04 QALY	Wu 2021¹⁾
Giappone (AMD, Tamura et al. 2022)	ICER $99,283/QALY (oltre la soglia)	Wu 2021¹⁾

Screening per la retinopatia del prematuro (ROP)

È stato riportato che lo screening autonomo con IA è il più costo-efficace rispetto alla telemedicina, all’oftalmoscopia e all’IA assistita¹⁾. Con una soglia di disponibilità a pagare di $7, è stato considerato costo-efficace rispetto allo screening assistito¹⁾.

Screening AMD (degenerazione maculare legata all’età)

In una simulazione di coorte giapponese (500,000 persone di età pari o superiore a 40 anni, prevalenza 3.85%), l’ICER dello screening con IA ogni 3 anni era di $99,283/QALY ($92,890-$99,283)¹⁾. Questo supera la soglia di disponibilità a pagare del Giappone (circa $47,286/QALY), quindi al momento il rapporto costo-efficacia dello screening AMD resta incerto¹⁾. Tuttavia, i progressi della tecnologia IA e la riduzione dei costi potrebbero migliorare il quadro in futuro.

5. Sfide e limiti

Sfide tecniche

Bias dei dati di addestramento: nei dataset sbilanciati verso determinate razze o fasce d’età, la precisione diminuisce negli altri gruppi¹⁾
Dipendenza dalla qualità dell’immagine: la qualità delle foto del fundus oculare (presenza o meno di dilatazione pupillare, opacità dei mezzi e condizioni di acquisizione) influisce direttamente sulla precisione dell’IA
Difficoltà nella gestione delle malattie rare: per le malattie con pochi dati di addestramento non si riesce a ottenere una precisione sufficiente
Problema della scatola nera: la base delle decisioni dell’IA non è trasparente, rendendo difficile per i medici adempiere al proprio dovere di spiegazione¹⁾
Bassa precisione in neuro-oftalmologia: il tasso di risposte corrette di ChatGPT-4 in neuro-oftalmologia è stato del 58%, il più basso, e mostra limiti nell’interpretazione di disturbi complessi del nervo ottico³⁾

Sfide etiche e normative

Di seguito sono indicate le questioni etiche e legali dell’IA in oftalmologia¹⁾.

Privacy del paziente e sicurezza dei dati: definizione di norme per la gestione cloud e la condivisione internazionale delle immagini del fundus
Responsabilità in caso di diagnosi errata: in caso di diagnosi errata dell’IA, la responsabilità ricade sul medico o sul produttore dell’IA
Processi normativi e di approvazione: sistemi di valutazione adeguati per i dispositivi medici IA secondo FDA (Stati Uniti), la Legge sui dispositivi farmaceutici e medici (Giappone) e altri
Garanzia di spiegabilità (explainability): l’importanza di presentare la base delle decisioni dell’IA in modo comprensibile per medici e pazienti

Questioni di economia sanitaria

I costi iniziali di implementazione (hardware, software e formazione del personale) possono essere elevati¹⁾
La differenza nel rapporto costo-efficacia tra paesi a basso e alto reddito è grande¹⁾
I sistemi di rimborso assicurativo sono in fase di sviluppo in ciascun paese e l’implementazione in Giappone è ancora in fase di sviluppo

Q La diagnosi oculare con IA è sicura?

I sistemi approvati da autorità di regolamentazione come la FDA (come IDx-DR) hanno superato rigorosi studi clinici e ne è stato confermato un certo livello di sicurezza²⁾. Tuttavia, la diagnosi con IA è uno strumento di supporto e la diagnosi finale e il piano terapeutico devono essere stabiliti da un oculista. Non è raccomandato che il paziente si autodiagnostichi usando solo un chatbot di IA (come ChatGPT). L’accuratezza dell’IA può diminuire in caso di scarsa qualità dell’immagine, malattie rare e nell’ambito della neuro-oftalmologia³⁾, quindi se si sospetta un’anomalia è importante rivolgersi tempestivamente a un oculista.

6. Fondamenti tecnici: come funziona il deep learning

Immagine con una mappa di calore Grad-CAM sovrapposta a una foto del fundus oculare. Le aree su cui si concentra l’IA sono mostrate con una scala cromatica per tre categorie: occhio normale, sospetto glaucoma e sospetto di retinopatia diabetica

Arias-Serrano I, et al. Artificial intelligence based glaucoma and diabetic retinopathy detection using MATLAB — retrained AlexNet convolutional neural network. F1000Research. 2024;12:14. Figure 8. PMCID: PMC11143403. License: CC BY.

Figura comparativa che mostra mappe di calore Grad-CAM di AlexNet, ResNet50 e GoogLeNet sovrapposte a fotografie del fundus oculare (colonna sinistra) di un occhio normale (Non_D), sospetto glaucoma (Sus_G) e sospetta retinopatia diabetica (Sus_R). Il rosso fino al giallo indica un’attenzione maggiore, il blu un’attenzione minore. Nei casi di glaucoma si osserva una forte attivazione attorno alla papilla del nervo ottico, mentre nei casi di retinopatia diabetica si osserva una forte attivazione nella regione della macula fino al polo posteriore. Ciò corrisponde alle tecniche di visualizzazione Grad-CAM e delle reti neurali convoluzionali trattate nella sezione “Fondamenti tecnici: come funziona il deep learning”.

Rete neurale convoluzionale (CNN)

La rete neurale convoluzionale (CNN: Convolutional Neural Network) è la tecnologia centrale della diagnosi oftalmologica con IA.

Estrae automaticamente in modo gerarchico le caratteristiche dalle immagini del fundus e OCT in ingresso
Gli strati superficiali riconoscono caratteristiche di basso livello come contorni e colore, mentre gli strati più profondi riconoscono caratteristiche astratte come schemi dei vasi sanguigni, emorragia, edema e forma della papilla del nervo ottico
Imparare ripetutamente su grandi quantità di dati di addestramento (immagini di riferimento etichettate da specialisti)

Processo di apprendimento dell’IA

Raccolta dei dati: raccolta su larga scala di fotografie del fundus, OCT e dati dell’esame del campo visivo
Annotazione: gli oftalmologi assegnano a ogni immagine etichette di riferimento (stadio e reperti)
Addestramento e ottimizzazione: regolazione ripetuta dei parametri della rete per avvicinarli alla risposta corretta
Validazione e studi clinici: valutazione delle prestazioni su coorti esterne e studio pilota nella pratica clinica reale

Transfer learning (applicare a immagini oftalmologiche modelli pre-addestrati di altri domini, come ImageNet) è ampiamente usato come metodo per raggiungere un’elevata accuratezza anche quando i dati di addestramento sono limitati.

Anche la ricerca sulla generazione di immagini sintetiche mediante GAN (reti generative antagoniste) per ampliare artificialmente i dati di addestramento delle malattie rare è in avanzamento.

IA multimodale

L’IA multimodale che elabora contemporaneamente testo (informazioni dell’anamnesi) e immagini (fotografie del fundus e OCT) viene applicata all’oftalmologia con lo sviluppo dei modelli linguistici di grandi dimensioni (come GPT-4)³⁾. Sebbene possa integrare informazioni più varie rispetto a una CNN a singola modalità, è stato mostrato che la sua capacità di interpretare le immagini è ancora inferiore alla comprensione del testo³⁾.

7. Ricerche più recenti e prospettive future

Predizione delle malattie sistemiche dalle fotografie del fundus

L’analisi delle fotografie del fundus mediante deep learning ha mostrato che potrebbe essere possibile predire fattori di rischio sistemici come età, sesso, pressione arteriosa sistolica, storia di fumo e HbA1c dalle sole fotografie del fundus⁶⁾. È stata inoltre riportata una certa accuratezza nella previsione del rischio futuro di eventi cardiovascolari (infarto miocardico e ictus), e per questo attira l’attenzione la possibilità che le fotografie del fundus possano fungere da finestra sullo stato di salute generale. Anche gli AI per predire demenza, malattia renale e anemia sono ancora in fase di ricerca⁶⁾.

Integrazione con le fotocamere fundus degli smartphone

Con la fotografia del fundus mediante una piccola lente da applicare allo smartphone e l’analisi AI, è stato dimostrato che lo screening della DR nei pazienti diabetici in India è praticabile⁷⁾. Sia la sensibilità sia la specificità sono risultate paragonabili a quelle delle fotocamere fundus specialistiche, e lo screening AI combinato con dispositivi generici a basso costo potrebbe contribuire alla diffusione nei paesi in via di sviluppo e nelle aree rurali.

Integrazione tra AI e telemedicina

Integrando lo screening AI con la telemedicina, si prevede un miglioramento dell’accesso alle cure oftalmologiche nelle aree remote e nei paesi in via di sviluppo. Anche nelle strutture prive di uno specialista oftalmologo, l’AI può eseguire uno screening iniziale e inviare solo i casi positivi alla valutazione a distanza da parte di uno specialista, consentendo un uso più efficiente delle risorse mediche.

Applicazioni nella medicina personalizzata

Sono in corso studi su AI in grado di prevedere in anticipo la risposta alla terapia anti-VEGF (ranibizumab, aflibercept, faricimab, ecc.) e di proporre il piano di somministrazione ottimale per ciascun paziente. I modelli che predicono l’efficacia del trattamento dalle immagini OCT possono contribuire a ridurre il numero di iniezioni e a migliorare la prognosi visiva.

Applicazioni dell’AI generativa per l’educazione del paziente e il supporto all’anamnesi

I modelli linguistici di grandi dimensioni (come GPT-4) sono oggetto di ricerca per usi quali spiegare le malattie ai pazienti, preparare i documenti di consenso informato e supportare l’anamnesi³⁾. Tuttavia, restano sfide nel prevenire errori e bias nelle informazioni mediche e nel mantenere la relazione medico-paziente. Non è raccomandato che i pazienti prendano decisioni di autodiagnosi o autotrattamento basandosi solo su un chatbot³⁾.

8. Riferimenti

Wu JH, Liu TYA, Hsu WT, et al. Performance and limitation of machine learning algorithms for diabetic retinopathy screening: meta-analysis. J Med Internet Res. 2021;23(11):e23863.
Abràmoff MD, Lavin PT, Birch M, Shah N, Folk JC. Pivotal trial of an autonomous AI-based diagnostic system for detection of diabetic retinopathy in primary care offices. NPJ digital medicine. 2018;1:39. doi:10.1038/s41746-018-0040-6. PMID:31304320; PMCID:PMC6550188.
Mihalache A, Popovic MM, Guo MZ, et al. Performance of an upgraded artificial intelligence chatbot for ophthalmic knowledge assessment. JAMA Ophthalmol. 2024;142(3):234-241.
Olvera-Barrios A, Heeren TF, Balaskas K, et al. Diagnostic accuracy of diabetic retinopathy grading by an artificial intelligence-enabled algorithm compared with a human standard reference. Diabetologia. 2023;66(5):857-866.
Brown JM, Campbell JP, Beers A, et al. Automated diagnosis of plus disease in retinopathy of prematurity using deep convolutional neural networks. JAMA Ophthalmol. 2018;136(7):803-810.
Poplin R, Varadarajan AV, Blumer K, Liu Y, McConnell MV, Corrado GS, et al. Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning. Nature biomedical engineering. 2018;2(3):158-164. doi:10.1038/s41551-018-0195-0. PMID:31015713.
Rajalakshmi R, Subashini R, Anjana RM, et al. Automated diabetic retinopathy detection in smartphone-based fundus photography using artificial intelligence. Eye. 2018;32(6):1138-1144.
Ting DSW, Cheung CY, Lim G, Tan GSW, Quang ND, Gan A, et al. Development and Validation of a Deep Learning System for Diabetic Retinopathy and Related Eye Diseases Using Retinal Images From Multiethnic Populations With Diabetes. JAMA. 2017;318(22):2211-2223. doi:10.1001/jama.2017.18152. PMID:29234807; PMCID:PMC5820739.