跳转到内容
其他

眼科AI诊断的现在与未来(AI Diagnosis in Ophthalmology)

AI(人工智能)是模仿人类智能的机器学习系统的总称。深度学习(DL)是AI的一个子集,使用多层神经网络提取高级特征并进行复杂判断1)

眼科是AI应用发展最先进的医疗领域之一。眼底照片、OCT光学相干断层扫描)、视野检查等图像数据已经标准化,因此更容易获得大量训练数据。AI的主要应用目的有以下3点。

  • 提高筛查效率(减轻眼科专科医生的判读负担)
  • 改善专科医生不足地区的可及性
  • 实现诊断准确性的均一化(缩小机构之间的差异)

2018年,FDA批准了首个完全自主型AI诊断系统(IDx-DR),推动了眼科AI诊断的实际应用2)。IDx-DR可由内科和初级保健现场的非眼科医护人员操作,并可自动判断是否需要转诊给眼科专科医生2)

深度学习系统在检测糖尿病视网膜病变青光眼AMD 方面显示出与专科医生相当的准确度,并且已显示出利用眼底照片进行 AI 诊断的可能性8)

Q AI 在眼科中如何应用?
A

AI 会自动分析眼底照片和 OCT 图像,以检测糖尿病视网膜病变青光眼年龄相关性黄斑变性等疾病。筛查 AI(完全自主型)可由非眼科医生操作,并用于专科医生不足地区的初筛。此外,关于 AI 聊天机器人(如 GPT-4)用于评估眼科知识和患者教育的研究也在进行中3)。最终诊断由眼科专科医生完成,AI 作为辅助工具。

眼科 AI 按功能和自主程度大致分为以下三类。

筛查 AI(完全自主型)

它会自动分析眼底照片,并判断是否无需转诊或需要转诊。即使在没有眼科专科医生的情况下也可运行,并应用于以下疾病2)

诊断辅助AI(半自主型)

这是一个辅助医生判读的系统。它用于通过对OCT层结构进行自动分割来进行AMD分型分类,以及评估糖尿病黄斑水肿(DME)的严重程度等。

AI聊天机器人(多模态型)

这是大语言模型的一种应用,可同时解析文本(问诊信息)和图像(眼底照片、OCT)。ChatGPT-4的眼科知识和图像解读能力已受到评估,正在考虑将其用于患者教育和远程问诊3)

AI种类代表系统对象准确性指标
筛查AI(自主型)IDx-DR2)糖尿病视网膜病变灵敏度87.2%,特异度90.7%
筛查AI(自主型)i-ROP DL5)ROP灵敏度91%,特异度91%
筛查AI(自主型)EyeArt4)糖尿病视网膜病变已在英国NHS评估并使用
AI聊天机器人ChatGPT-43)眼科知识评估总体准确率70%

2)是2018年获得FDA批准的首个完全自主AI诊断系统。由非眼科医护人员使用免散瞳眼底相机拍摄,AI自动分析并判定是否转诊。该系统已开始在基层医疗机构推广。

主要性能指标(Abràmoff等人2018年关键试验)2)

  • 敏感度:87.2%(检出中度及以上糖尿病视网膜病变
  • 特异度:90.7%
  • 阳性预测值:49.7%,阴性预测值:98.5%

IDx-DR使内科和基层医疗机构能够开展自主DR筛查,并可高效筛选出需要转诊眼科专科医生的病例2)

AI聊天机器人(ChatGPT-4)的眼科图像解读

Section titled “AI聊天机器人(ChatGPT-4)的眼科图像解读”

已评估GPT-4在眼科多项选择题中的正确率3),总体正确率为70%。

  • 总体正确率:70%(299/428题)
  • 各领域正确率排名:
领域准确率
视网膜77%(最高)3)
眼肿瘤72%3)
小儿眼科68%3)
葡萄膜炎67%3)
青光眼61%3)
神经眼科58%(最低)3)
  • 图像型问题:65%,非图像型问题:82%(差17%,P < .001)3)

这一差异表明,聊天机器人对图像的解读能力仍不及其对非图像文本的理解能力。有人指出,多模态聊天机器人在临床环境中的恰当整合至关重要3)

IDx-DR(2018年获FDA批准)

目标疾病糖尿病视网膜病变

准确率:敏感性87.2%,特异性90.7%

特点:完全自主。非眼科医生可操作。用于内科和初级保健2)

EyeArt(Eyenuk)

目标疾病糖尿病视网膜病变

准确率:已在英国NHS中评估并投入实际应用

特点:已整合到筛查项目中4)

i-ROP DL(2018)

目标疾病早产儿视网膜病变ROP

准确性:敏感性91%,特异性91%

特点:在新生儿重症监护室(NICU)中自动检出plus病变5)

ChatGPT-4(OpenAI)

对象:眼科知识和图像解读评估

准确性:总体正确率70%(视网膜77%,神经眼科58%)

特点:用于患者教育和远程问诊的研究阶段3)

Q AI在眼科诊断中的准确性有多高?
A

糖尿病视网膜病变筛查AI(IDx-DR)的敏感性为87.2%,特异性为90.7%,其准确性与眼科专科医生的判读相当2)。用于早产儿视网膜病变ROP)的AI(i-ROP DL)也达到了91%的敏感性和91%的特异性5)。另一方面,在对AI聊天机器人(ChatGPT-4)的眼科知识评估中,总体正确率为70%,而在神经眼科领域仅为58%3)。这些AI都只是辅助工具,如果发现异常,还需要由眼科专科医生进行详细检查。

关于AI眼科筛查成本效益的证据已在多项研究中积累1)

Wu等人的系统综述(2021年)对15项评估AI辅助DR筛查经济性的研究进行分析,其中11项认为其具有成本效益1)

  • 苏格兰NHS:每年节省$403,200
  • 美国(IDx-DR/EyeArt):每位患者成本降低23.3%
  • 中国农村地区:AI筛查比人工阅片者便宜$34.86,QALY提高0.04
地区/场景成本效益评估来源
苏格兰NHS每年节省$403,200Wu 20211)
美国基层医疗每位患者成本降低23.3%Wu 20211)
中国农村地区比人工分级员便宜$34.86,+0.04 QALYWu 20211)
日本(AMD,Tamura et al. 2022)ICER $99,283/QALY(超过阈值)Wu 20211)

有报道称,自主AI筛查与远程医疗、眼底镜检查和辅助AI相比,成本效益最高1)。在支付意愿阈值为$7时,与辅助筛查相比具有成本效益1)

AMD(年龄相关性黄斑变性)筛查

Section titled “AMD(年龄相关性黄斑变性)筛查”

在日本队列模拟(40岁以上500,000人,患病率3.85%)中,AI每3年筛查的ICER为$99,283/QALY($92,890-$99,283)1)。这超过了日本的支付意愿阈值(约$47,286/QALY),因此目前AMD筛查的成本效益仍存疑1)。不过,随着AI技术进步和成本下降,未来可能有所改善。

  • 训练数据偏差:在偏向特定种族或年龄层的训练数据中,其他群体的准确率会下降1)
  • 画质依赖性:眼底照片的画质(是否散瞳、介质浑浊、拍摄条件)会直接影响AI准确率
  • 难以应对罕见疾病:对于训练数据很少的疾病,无法获得足够的准确率
  • 黑箱问题:AI判断依据不透明,临床医生难以履行说明责任1)
  • 神经眼科的低准确率:ChatGPT-4在神经眼科中的正确率为58%,是最低的,对复杂视神经疾病的解读也存在局限3)

眼科AI的伦理和法律问题如下1)

  • 患者隐私与数据安全:关于眼底图像云端管理和国际共享的法规建设
  • 误诊时的责任归属:如果AI误诊,责任在医生还是AI厂商
  • 监管和审批流程:依据FDA(美国)、《药品和医疗器械法》(日本)等对AI医疗器械进行适当评估的体系
  • 确保可解释性(explainability):让临床医生和患者都能理解AI判断依据的重要性
  • 初期导入成本(硬件、软件、人员培训)有时较高1)
  • 低收入国家和高收入国家之间的成本效益差异很大1)
  • 各国正在推进医保报销制度的完善,日本国内的落地实施仍处于发展阶段
Q AI眼科诊断安全吗?
A

FDA等监管机构批准的系统(如IDx-DR)已经经过严格的临床试验,已确认一定的安全性2)。不过,AI诊断只是辅助工具,最终的诊断和治疗方案应由眼科专科医生判断。不建议患者仅依靠AI聊天机器人(如ChatGPT)进行自我诊断。在图像质量不佳、罕见疾病和神经眼科领域,AI准确率可能下降3),因此一旦怀疑有异常,尽快就诊眼科非常重要。

一张在眼底照片上叠加Grad-CAM热力图的图像。以色标显示AI对正常眼、疑似青光眼和疑似糖尿病视网膜病变三类的关注区域
一张在眼底照片上叠加Grad-CAM热力图的图像。以色标显示AI对正常眼、疑似青光眼和疑似糖尿病视网膜病变三类的关注区域
Arias-Serrano I, et al. Artificial intelligence based glaucoma and diabetic retinopathy detection using MATLAB — retrained AlexNet convolutional neural network. F1000Research. 2024;12:14. Figure 8. PMCID: PMC11143403. License: CC BY.
比较图:在正常眼(Non_D)、疑似青光眼(Sus_G)和疑似糖尿病视网膜病变(Sus_R)的眼底照片(左列)上,叠加了AlexNet、ResNet50和GoogLeNet各自的Grad-CAM热力图。红到黄色表示关注度较高,蓝色表示关注度较低;在青光眼病例中,视神经乳头周围出现明显激活,在糖尿病视网膜病变病例中,黄斑到后极部区域出现明显激活。对应本文“技术基础:深度学习的原理”部分所介绍的Grad-CAM和卷积神经网络可视化技术。

卷积神经网络(CNN:Convolutional Neural Network)是眼科AI诊断的核心技术。

  • 从输入的眼底图像和OCT图像中,自动分层提取特征
  • 浅层识别轮廓、颜色等低级特征,深层识别血管模式、出血、水肿、视神经乳头形态等抽象特征
  • 用大量标注好的训练数据(由专科医生标注的标准图像)反复学习
  1. 数据收集:大规模收集眼底照片、OCT视野检查数据
  2. 标注:眼科专科医生为每张图像添加标准标签(分期和所见)
  3. 学习与优化:反复调整网络参数,使其更接近正确答案
  4. 验证与临床试验:在外部队列中评估性能,并在真实临床中进行试点试验

迁移学习(将ImageNet等其他领域的预训练模型应用于眼科图像)被广泛用于在训练数据有限时也能实现高精度。

利用 GAN(生成对抗网络) 生成合成图像,以人工扩充罕见疾病训练数据的研究也在不断推进。

能够同时处理文本(问诊信息)和图像(眼底照片、OCT)的多模态AI,随着大语言模型(如GPT-4)的发展,正在被应用于眼科3)。与单一模态的CNN相比,它能够整合更全面的信息,但研究显示,其图像解读能力仍然弱于对文本的理解3)

利用深度学习分析眼底照片,已有研究表明,仅凭眼底照片就有可能预测年龄、性别、收缩压、吸烟史和HbA1c等全身风险因素6)。在预测未来心血管事件(心肌梗死、脑卒中)风险方面也已报告一定准确度,眼底照片可能成为观察整体健康状况的窗口,这一可能性备受关注。用于预测痴呆、肾脏疾病和贫血的AI也仍处于研究阶段6)

使用安装在智能手机上的小型镜头进行眼底摄影,并结合AI分析,已证明在印度糖尿病患者中开展DR筛查具有实用性7)。其敏感度和特异度均与专业眼底相机相当,结合低成本通用设备的AI筛查有助于在发展中国家和农村地区推广。

通过将AI筛查与远程医疗结合,预计可改善偏远地区和发展中国家的眼科就医可及性。即使在没有眼科专科医生的机构,AI也可进行初筛,只将阳性病例转给专科医生进行远程判读,从而更有效地利用医疗资源。

目前正在研究由AI提前预测抗VEGF治疗雷珠单抗阿柏西普法瑞西单抗等)的疗效,并为每位患者提出最佳给药方案。基于OCT图像预测治疗效果的模型,可能有助于减少注射次数并改善视力预后。

生成式AI在患者教育和问诊辅助中的应用

Section titled “生成式AI在患者教育和问诊辅助中的应用”

大型语言模型(如GPT-4)正在被研究用于向患者解释疾病、制作知情同意文件以及辅助问诊等3)。不过,如何防止医疗信息出现错误或偏差,以及如何维持医患关系,仍是课题。并不建议患者仅依靠聊天机器人来决定自我诊断或自我治疗3)

  1. Wu JH, Liu TYA, Hsu WT, et al. Performance and limitation of machine learning algorithms for diabetic retinopathy screening: meta-analysis. J Med Internet Res. 2021;23(11):e23863.

  2. Abràmoff MD, Lavin PT, Birch M, Shah N, Folk JC. Pivotal trial of an autonomous AI-based diagnostic system for detection of diabetic retinopathy in primary care offices. NPJ digital medicine. 2018;1:39. doi:10.1038/s41746-018-0040-6. PMID:31304320; PMCID:PMC6550188.

  3. Mihalache A, Popovic MM, Guo MZ, et al. Performance of an upgraded artificial intelligence chatbot for ophthalmic knowledge assessment. JAMA Ophthalmol. 2024;142(3):234-241.

  4. Olvera-Barrios A, Heeren TF, Balaskas K, et al. Diagnostic accuracy of diabetic retinopathy grading by an artificial intelligence-enabled algorithm compared with a human standard reference. Diabetologia. 2023;66(5):857-866.

  5. Brown JM, Campbell JP, Beers A, et al. Automated diagnosis of plus disease in retinopathy of prematurity using deep convolutional neural networks. JAMA Ophthalmol. 2018;136(7):803-810.

  6. Poplin R, Varadarajan AV, Blumer K, Liu Y, McConnell MV, Corrado GS, et al. Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning. Nature biomedical engineering. 2018;2(3):158-164. doi:10.1038/s41551-018-0195-0. PMID:31015713.

  7. Rajalakshmi R, Subashini R, Anjana RM, et al. Automated diabetic retinopathy detection in smartphone-based fundus photography using artificial intelligence. Eye. 2018;32(6):1138-1144.

  8. Ting DSW, Cheung CY, Lim G, Tan GSW, Quang ND, Gan A, et al. Development and Validation of a Deep Learning System for Diabetic Retinopathy and Related Eye Diseases Using Retinal Images From Multiethnic Populations With Diabetes. JAMA. 2017;318(22):2211-2223. doi:10.1001/jama.2017.18152. PMID:29234807; PMCID:PMC5820739.

复制全文后,可以粘贴到你常用的 AI 助手中提问。