IDx-DR(2018年获FDA批准)
眼科AI诊断的现在与未来(AI Diagnosis in Ophthalmology)
一看就懂的要点
Section titled “一看就懂的要点”1. 什么是眼科AI诊断
Section titled “1. 什么是眼科AI诊断”AI(人工智能)是模仿人类智能的机器学习系统的总称。深度学习(DL)是AI的一个子集,使用多层神经网络提取高级特征并进行复杂判断1)。
眼科是AI应用发展最先进的医疗领域之一。眼底照片、OCT(光学相干断层扫描)、视野检查等图像数据已经标准化,因此更容易获得大量训练数据。AI的主要应用目的有以下3点。
- 提高筛查效率(减轻眼科专科医生的判读负担)
- 改善专科医生不足地区的可及性
- 实现诊断准确性的均一化(缩小机构之间的差异)
2018年,FDA批准了首个完全自主型AI诊断系统(IDx-DR),推动了眼科AI诊断的实际应用2)。IDx-DR可由内科和初级保健现场的非眼科医护人员操作,并可自动判断是否需要转诊给眼科专科医生2)。
深度学习系统在检测糖尿病视网膜病变、青光眼和 AMD 方面显示出与专科医生相当的准确度,并且已显示出利用眼底照片进行 AI 诊断的可能性8)。
2. AI 的种类与目标疾病
Section titled “2. AI 的种类与目标疾病”眼科 AI 按功能和自主程度大致分为以下三类。
筛查 AI(完全自主型)
它会自动分析眼底照片,并判断是否无需转诊或需要转诊。即使在没有眼科专科医生的情况下也可运行,并应用于以下疾病2)。
- 糖尿病视网膜病变(DR):研究和实际应用最为成熟
- 年龄相关性黄斑变性(AMD):玻璃膜疣和新生血管的检测
- 青光眼:视神经乳头和神经纤维层的自动分析
- 早产儿视网膜病变(ROP):新生儿重症监护室中的新生儿筛查
- 视网膜母细胞瘤:儿童眼底监测
诊断辅助AI(半自主型)
这是一个辅助医生判读的系统。它用于通过对OCT层结构进行自动分割来进行AMD分型分类,以及评估糖尿病黄斑水肿(DME)的严重程度等。
AI聊天机器人(多模态型)
这是大语言模型的一种应用,可同时解析文本(问诊信息)和图像(眼底照片、OCT)。ChatGPT-4的眼科知识和图像解读能力已受到评估,正在考虑将其用于患者教育和远程问诊3)。
| AI种类 | 代表系统 | 对象 | 准确性指标 |
|---|---|---|---|
| 筛查AI(自主型) | IDx-DR2) | 糖尿病视网膜病变 | 灵敏度87.2%,特异度90.7% |
| 筛查AI(自主型) | i-ROP DL5) | ROP | 灵敏度91%,特异度91% |
| 筛查AI(自主型) | EyeArt4) | 糖尿病视网膜病变 | 已在英国NHS评估并使用 |
| AI聊天机器人 | ChatGPT-43) | 眼科知识评估 | 总体准确率70% |
3. 主要的AI系统与诊断准确性
Section titled “3. 主要的AI系统与诊断准确性”IDx-DR(Digital Diagnostics)
Section titled “IDx-DR(Digital Diagnostics)”2)是2018年获得FDA批准的首个完全自主AI诊断系统。由非眼科医护人员使用免散瞳眼底相机拍摄,AI自动分析并判定是否转诊。该系统已开始在基层医疗机构推广。
主要性能指标(Abràmoff等人2018年关键试验)2):
- 敏感度:87.2%(检出中度及以上糖尿病视网膜病变)
- 特异度:90.7%
- 阳性预测值:49.7%,阴性预测值:98.5%
IDx-DR使内科和基层医疗机构能够开展自主DR筛查,并可高效筛选出需要转诊眼科专科医生的病例2)。
AI聊天机器人(ChatGPT-4)的眼科图像解读
Section titled “AI聊天机器人(ChatGPT-4)的眼科图像解读”已评估GPT-4在眼科多项选择题中的正确率3),总体正确率为70%。
- 总体正确率:70%(299/428题)
- 各领域正确率排名:
| 领域 | 准确率 |
|---|---|
| 视网膜 | 77%(最高)3) |
| 眼肿瘤 | 72%3) |
| 小儿眼科 | 68%3) |
| 葡萄膜炎 | 67%3) |
| 青光眼 | 61%3) |
| 神经眼科 | 58%(最低)3) |
- 图像型问题:65%,非图像型问题:82%(差17%,P < .001)3)
这一差异表明,聊天机器人对图像的解读能力仍不及其对非图像文本的理解能力。有人指出,多模态聊天机器人在临床环境中的恰当整合至关重要3)。
EyeArt(Eyenuk)
i-ROP DL(2018)
ChatGPT-4(OpenAI)
对象:眼科知识和图像解读评估
准确性:总体正确率70%(视网膜77%,神经眼科58%)
特点:用于患者教育和远程问诊的研究阶段3)
4. 成本效益与医疗经济
Section titled “4. 成本效益与医疗经济”关于AI眼科筛查成本效益的证据已在多项研究中积累1)。
糖尿病视网膜病变(DR)筛查
Section titled “糖尿病视网膜病变(DR)筛查”Wu等人的系统综述(2021年)对15项评估AI辅助DR筛查经济性的研究进行分析,其中11项认为其具有成本效益1)。
- 苏格兰NHS:每年节省$403,200
- 美国(IDx-DR/EyeArt):每位患者成本降低23.3%
- 中国农村地区:AI筛查比人工阅片者便宜$34.86,QALY提高0.04
| 地区/场景 | 成本效益评估 | 来源 |
|---|---|---|
| 苏格兰NHS | 每年节省$403,200 | Wu 20211) |
| 美国基层医疗 | 每位患者成本降低23.3% | Wu 20211) |
| 中国农村地区 | 比人工分级员便宜$34.86,+0.04 QALY | Wu 20211) |
| 日本(AMD,Tamura et al. 2022) | ICER $99,283/QALY(超过阈值) | Wu 20211) |
早产儿视网膜病变(ROP)筛查
Section titled “早产儿视网膜病变(ROP)筛查”有报道称,自主AI筛查与远程医疗、眼底镜检查和辅助AI相比,成本效益最高1)。在支付意愿阈值为$7时,与辅助筛查相比具有成本效益1)。
AMD(年龄相关性黄斑变性)筛查
Section titled “AMD(年龄相关性黄斑变性)筛查”在日本队列模拟(40岁以上500,000人,患病率3.85%)中,AI每3年筛查的ICER为$99,283/QALY($92,890-$99,283)1)。这超过了日本的支付意愿阈值(约$47,286/QALY),因此目前AMD筛查的成本效益仍存疑1)。不过,随着AI技术进步和成本下降,未来可能有所改善。
5. 挑战与局限
Section titled “5. 挑战与局限”- 训练数据偏差:在偏向特定种族或年龄层的训练数据中,其他群体的准确率会下降1)
- 画质依赖性:眼底照片的画质(是否散瞳、介质浑浊、拍摄条件)会直接影响AI准确率
- 难以应对罕见疾病:对于训练数据很少的疾病,无法获得足够的准确率
- 黑箱问题:AI判断依据不透明,临床医生难以履行说明责任1)
- 神经眼科的低准确率:ChatGPT-4在神经眼科中的正确率为58%,是最低的,对复杂视神经疾病的解读也存在局限3)
伦理与监管挑战
Section titled “伦理与监管挑战”眼科AI的伦理和法律问题如下1)。
- 患者隐私与数据安全:关于眼底图像云端管理和国际共享的法规建设
- 误诊时的责任归属:如果AI误诊,责任在医生还是AI厂商
- 监管和审批流程:依据FDA(美国)、《药品和医疗器械法》(日本)等对AI医疗器械进行适当评估的体系
- 确保可解释性(explainability):让临床医生和患者都能理解AI判断依据的重要性
医疗经济学问题
Section titled “医疗经济学问题”- 初期导入成本(硬件、软件、人员培训)有时较高1)
- 低收入国家和高收入国家之间的成本效益差异很大1)
- 各国正在推进医保报销制度的完善,日本国内的落地实施仍处于发展阶段
FDA等监管机构批准的系统(如IDx-DR)已经经过严格的临床试验,已确认一定的安全性2)。不过,AI诊断只是辅助工具,最终的诊断和治疗方案应由眼科专科医生判断。不建议患者仅依靠AI聊天机器人(如ChatGPT)进行自我诊断。在图像质量不佳、罕见疾病和神经眼科领域,AI准确率可能下降3),因此一旦怀疑有异常,尽快就诊眼科非常重要。
6. 技术基础:深度学习的原理
Section titled “6. 技术基础:深度学习的原理”
卷积神经网络(CNN)
Section titled “卷积神经网络(CNN)”卷积神经网络(CNN:Convolutional Neural Network)是眼科AI诊断的核心技术。
- 从输入的眼底图像和OCT图像中,自动分层提取特征
- 浅层识别轮廓、颜色等低级特征,深层识别血管模式、出血、水肿、视神经乳头形态等抽象特征
- 用大量标注好的训练数据(由专科医生标注的标准图像)反复学习
AI的学习过程
Section titled “AI的学习过程”- 数据收集:大规模收集眼底照片、OCT和视野检查数据
- 标注:眼科专科医生为每张图像添加标准标签(分期和所见)
- 学习与优化:反复调整网络参数,使其更接近正确答案
- 验证与临床试验:在外部队列中评估性能,并在真实临床中进行试点试验
迁移学习(将ImageNet等其他领域的预训练模型应用于眼科图像)被广泛用于在训练数据有限时也能实现高精度。
利用 GAN(生成对抗网络) 生成合成图像,以人工扩充罕见疾病训练数据的研究也在不断推进。
能够同时处理文本(问诊信息)和图像(眼底照片、OCT)的多模态AI,随着大语言模型(如GPT-4)的发展,正在被应用于眼科3)。与单一模态的CNN相比,它能够整合更全面的信息,但研究显示,其图像解读能力仍然弱于对文本的理解3)。
7. 最新研究与未来展望
Section titled “7. 最新研究与未来展望”基于眼底照片预测全身疾病
Section titled “基于眼底照片预测全身疾病”利用深度学习分析眼底照片,已有研究表明,仅凭眼底照片就有可能预测年龄、性别、收缩压、吸烟史和HbA1c等全身风险因素6)。在预测未来心血管事件(心肌梗死、脑卒中)风险方面也已报告一定准确度,眼底照片可能成为观察整体健康状况的窗口,这一可能性备受关注。用于预测痴呆、肾脏疾病和贫血的AI也仍处于研究阶段6)。
与智能手机眼底相机的整合
Section titled “与智能手机眼底相机的整合”使用安装在智能手机上的小型镜头进行眼底摄影,并结合AI分析,已证明在印度糖尿病患者中开展DR筛查具有实用性7)。其敏感度和特异度均与专业眼底相机相当,结合低成本通用设备的AI筛查有助于在发展中国家和农村地区推广。
与远程医疗的融合
Section titled “与远程医疗的融合”通过将AI筛查与远程医疗结合,预计可改善偏远地区和发展中国家的眼科就医可及性。即使在没有眼科专科医生的机构,AI也可进行初筛,只将阳性病例转给专科医生进行远程判读,从而更有效地利用医疗资源。
在个体化医疗中的应用
Section titled “在个体化医疗中的应用”目前正在研究由AI提前预测抗VEGF治疗(雷珠单抗、阿柏西普、法瑞西单抗等)的疗效,并为每位患者提出最佳给药方案。基于OCT图像预测治疗效果的模型,可能有助于减少注射次数并改善视力预后。
生成式AI在患者教育和问诊辅助中的应用
Section titled “生成式AI在患者教育和问诊辅助中的应用”大型语言模型(如GPT-4)正在被研究用于向患者解释疾病、制作知情同意文件以及辅助问诊等3)。不过,如何防止医疗信息出现错误或偏差,以及如何维持医患关系,仍是课题。并不建议患者仅依靠聊天机器人来决定自我诊断或自我治疗3)。
8. 参考文献
Section titled “8. 参考文献”-
Wu JH, Liu TYA, Hsu WT, et al. Performance and limitation of machine learning algorithms for diabetic retinopathy screening: meta-analysis. J Med Internet Res. 2021;23(11):e23863.
-
Abràmoff MD, Lavin PT, Birch M, Shah N, Folk JC. Pivotal trial of an autonomous AI-based diagnostic system for detection of diabetic retinopathy in primary care offices. NPJ digital medicine. 2018;1:39. doi:10.1038/s41746-018-0040-6. PMID:31304320; PMCID:PMC6550188.
-
Mihalache A, Popovic MM, Guo MZ, et al. Performance of an upgraded artificial intelligence chatbot for ophthalmic knowledge assessment. JAMA Ophthalmol. 2024;142(3):234-241.
-
Olvera-Barrios A, Heeren TF, Balaskas K, et al. Diagnostic accuracy of diabetic retinopathy grading by an artificial intelligence-enabled algorithm compared with a human standard reference. Diabetologia. 2023;66(5):857-866.
-
Brown JM, Campbell JP, Beers A, et al. Automated diagnosis of plus disease in retinopathy of prematurity using deep convolutional neural networks. JAMA Ophthalmol. 2018;136(7):803-810.
-
Poplin R, Varadarajan AV, Blumer K, Liu Y, McConnell MV, Corrado GS, et al. Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning. Nature biomedical engineering. 2018;2(3):158-164. doi:10.1038/s41551-018-0195-0. PMID:31015713.
-
Rajalakshmi R, Subashini R, Anjana RM, et al. Automated diabetic retinopathy detection in smartphone-based fundus photography using artificial intelligence. Eye. 2018;32(6):1138-1144.
-
Ting DSW, Cheung CY, Lim G, Tan GSW, Quang ND, Gan A, et al. Development and Validation of a Deep Learning System for Diabetic Retinopathy and Related Eye Diseases Using Retinal Images From Multiethnic Populations With Diabetes. JAMA. 2017;318(22):2211-2223. doi:10.1001/jama.2017.18152. PMID:29234807; PMCID:PMC5820739.