眼科AI诊断的现在与未来（AI Diagnosis in Ophthalmology）

一看就懂的要点

眼科是AI（人工智能）应用发展最成熟的医疗领域之一，眼底照片和OCT等标准化图像数据很适合用于AI学习。
2018年，FDA批准了首个完全自主的AI诊断系统（IDx-DR），糖尿病视网膜病变筛查的自动化进入了实际应用阶段²⁾。
对AI聊天机器人（ChatGPT-4）眼科知识的评估显示，总体正确率为70%，不同领域存在差异：视网膜领域为77%（最高），神经眼科为58%（最低）³⁾。
糖尿病视网膜病变的AI筛查在15项研究中有11项被评估为具有成本效益，苏格兰NHS报告每年可节省约40万美元¹⁾。
AI准确性在图像质量、训练数据偏倚（bias）以及罕见疾病处理方面仍有挑战¹⁾。
AI诊断是辅助工具，最终的诊断和治疗方案由眼科专科医生决定。
利用眼底照片预测心血管风险、痴呆等全身性疾病的AI研究正在推进中⁶⁾。

1. 什么是眼科AI诊断

AI（人工智能）是模仿人类智能的机器学习系统的总称。深度学习（DL）是AI的一个子集，使用多层神经网络提取高级特征并进行复杂判断¹⁾。

眼科是AI应用发展最先进的医疗领域之一。眼底照片、OCT（光学相干断层扫描）、视野检查等图像数据已经标准化，因此更容易获得大量训练数据。AI的主要应用目的有以下3点。

提高筛查效率（减轻眼科专科医生的判读负担）
改善专科医生不足地区的可及性
实现诊断准确性的均一化（缩小机构之间的差异）

2018年，FDA批准了首个完全自主型AI诊断系统（IDx-DR），推动了眼科AI诊断的实际应用²⁾。IDx-DR可由内科和初级保健现场的非眼科医护人员操作，并可自动判断是否需要转诊给眼科专科医生²⁾。

深度学习系统在检测糖尿病视网膜病变、青光眼和 AMD 方面显示出与专科医生相当的准确度，并且已显示出利用眼底照片进行 AI 诊断的可能性⁸⁾。

Q AI 在眼科中如何应用？

AI 会自动分析眼底照片和 OCT 图像，以检测糖尿病视网膜病变、青光眼、年龄相关性黄斑变性等疾病。筛查 AI（完全自主型）可由非眼科医生操作，并用于专科医生不足地区的初筛。此外，关于 AI 聊天机器人（如 GPT-4）用于评估眼科知识和患者教育的研究也在进行中³⁾。最终诊断由眼科专科医生完成，AI 作为辅助工具。

2. AI 的种类与目标疾病

眼科 AI 按功能和自主程度大致分为以下三类。

筛查 AI（完全自主型）

它会自动分析眼底照片，并判断是否无需转诊或需要转诊。即使在没有眼科专科医生的情况下也可运行，并应用于以下疾病²⁾。

糖尿病视网膜病变（DR）：研究和实际应用最为成熟
年龄相关性黄斑变性（AMD）：玻璃膜疣和新生血管的检测
青光眼：视神经乳头和神经纤维层的自动分析
早产儿视网膜病变（ROP）：新生儿重症监护室中的新生儿筛查
视网膜母细胞瘤：儿童眼底监测

诊断辅助AI（半自主型）

这是一个辅助医生判读的系统。它用于通过对OCT层结构进行自动分割来进行AMD分型分类，以及评估糖尿病黄斑水肿（DME）的严重程度等。

AI聊天机器人（多模态型）

这是大语言模型的一种应用，可同时解析文本（问诊信息）和图像（眼底照片、OCT）。ChatGPT-4的眼科知识和图像解读能力已受到评估，正在考虑将其用于患者教育和远程问诊³⁾。

AI种类	代表系统	对象	准确性指标
筛查AI（自主型）	IDx-DR²⁾	糖尿病视网膜病变	灵敏度87.2%，特异度90.7%
筛查AI（自主型）	i-ROP DL⁵⁾	ROP	灵敏度91%，特异度91%
筛查AI（自主型）	EyeArt⁴⁾	糖尿病视网膜病变	已在英国NHS评估并使用
AI聊天机器人	ChatGPT-4³⁾	眼科知识评估	总体准确率70%

3. 主要的AI系统与诊断准确性

IDx-DR（Digital Diagnostics）

²⁾是2018年获得FDA批准的首个完全自主AI诊断系统。由非眼科医护人员使用免散瞳眼底相机拍摄，AI自动分析并判定是否转诊。该系统已开始在基层医疗机构推广。

主要性能指标（Abràmoff等人2018年关键试验）²⁾：

敏感度：87.2%（检出中度及以上糖尿病视网膜病变）
特异度：90.7%
阳性预测值：49.7%，阴性预测值：98.5%

IDx-DR使内科和基层医疗机构能够开展自主DR筛查，并可高效筛选出需要转诊眼科专科医生的病例²⁾。

AI聊天机器人（ChatGPT-4）的眼科图像解读

已评估GPT-4在眼科多项选择题中的正确率³⁾，总体正确率为70%。

总体正确率：70%（299/428题）
各领域正确率排名：

领域	准确率
视网膜	77%（最高）³⁾
眼肿瘤	72%³⁾
小儿眼科	68%³⁾
葡萄膜炎	67%³⁾
青光眼	61%³⁾
神经眼科	58%（最低）³⁾

图像型问题：65%，非图像型问题：82%（差17%，P < .001）³⁾

这一差异表明，聊天机器人对图像的解读能力仍不及其对非图像文本的理解能力。有人指出，多模态聊天机器人在临床环境中的恰当整合至关重要³⁾。

IDx-DR（2018年获FDA批准）

目标疾病：糖尿病视网膜病变

准确率：敏感性87.2%，特异性90.7%

特点：完全自主。非眼科医生可操作。用于内科和初级保健²⁾

EyeArt（Eyenuk）

目标疾病：糖尿病视网膜病变

准确率：已在英国NHS中评估并投入实际应用

特点：已整合到筛查项目中⁴⁾

i-ROP DL（2018）

目标疾病：早产儿视网膜病变（ROP）

准确性：敏感性91%，特异性91%

特点：在新生儿重症监护室（NICU）中自动检出plus病变⁵⁾

ChatGPT-4（OpenAI）

对象：眼科知识和图像解读评估

准确性：总体正确率70%（视网膜77%，神经眼科58%）

特点：用于患者教育和远程问诊的研究阶段³⁾

Q AI在眼科诊断中的准确性有多高？

糖尿病视网膜病变筛查AI（IDx-DR）的敏感性为87.2%，特异性为90.7%，其准确性与眼科专科医生的判读相当²⁾。用于早产儿视网膜病变（ROP）的AI（i-ROP DL）也达到了91%的敏感性和91%的特异性⁵⁾。另一方面，在对AI聊天机器人（ChatGPT-4）的眼科知识评估中，总体正确率为70%，而在神经眼科领域仅为58%³⁾。这些AI都只是辅助工具，如果发现异常，还需要由眼科专科医生进行详细检查。

4. 成本效益与医疗经济

关于AI眼科筛查成本效益的证据已在多项研究中积累¹⁾。

糖尿病视网膜病变（DR）筛查

Wu等人的系统综述（2021年）对15项评估AI辅助DR筛查经济性的研究进行分析，其中11项认为其具有成本效益¹⁾。

苏格兰NHS：每年节省$403,200
美国（IDx-DR/EyeArt）：每位患者成本降低23.3%
中国农村地区：AI筛查比人工阅片者便宜$34.86，QALY提高0.04

地区/场景	成本效益评估	来源
苏格兰NHS	每年节省$403,200	Wu 2021¹⁾
美国基层医疗	每位患者成本降低23.3%	Wu 2021¹⁾
中国农村地区	比人工分级员便宜$34.86，+0.04 QALY	Wu 2021¹⁾
日本（AMD，Tamura et al. 2022）	ICER $99,283/QALY（超过阈值）	Wu 2021¹⁾

早产儿视网膜病变（ROP）筛查

有报道称，自主AI筛查与远程医疗、眼底镜检查和辅助AI相比，成本效益最高¹⁾。在支付意愿阈值为$7时，与辅助筛查相比具有成本效益¹⁾。

AMD（年龄相关性黄斑变性）筛查

在日本队列模拟（40岁以上500,000人，患病率3.85%）中，AI每3年筛查的ICER为$99,283/QALY（$92,890-$99,283）¹⁾。这超过了日本的支付意愿阈值（约$47,286/QALY），因此目前AMD筛查的成本效益仍存疑¹⁾。不过，随着AI技术进步和成本下降，未来可能有所改善。

5. 挑战与局限

技术性挑战

训练数据偏差：在偏向特定种族或年龄层的训练数据中，其他群体的准确率会下降¹⁾
画质依赖性：眼底照片的画质（是否散瞳、介质浑浊、拍摄条件）会直接影响AI准确率
难以应对罕见疾病：对于训练数据很少的疾病，无法获得足够的准确率
黑箱问题：AI判断依据不透明，临床医生难以履行说明责任¹⁾
神经眼科的低准确率：ChatGPT-4在神经眼科中的正确率为58%，是最低的，对复杂视神经疾病的解读也存在局限³⁾

伦理与监管挑战

眼科AI的伦理和法律问题如下¹⁾。

患者隐私与数据安全：关于眼底图像云端管理和国际共享的法规建设
误诊时的责任归属：如果AI误诊，责任在医生还是AI厂商
监管和审批流程：依据FDA（美国）、《药品和医疗器械法》（日本）等对AI医疗器械进行适当评估的体系
确保可解释性（explainability）：让临床医生和患者都能理解AI判断依据的重要性

医疗经济学问题

初期导入成本（硬件、软件、人员培训）有时较高¹⁾
低收入国家和高收入国家之间的成本效益差异很大¹⁾
各国正在推进医保报销制度的完善，日本国内的落地实施仍处于发展阶段

Q AI眼科诊断安全吗？

FDA等监管机构批准的系统（如IDx-DR）已经经过严格的临床试验，已确认一定的安全性²⁾。不过，AI诊断只是辅助工具，最终的诊断和治疗方案应由眼科专科医生判断。不建议患者仅依靠AI聊天机器人（如ChatGPT）进行自我诊断。在图像质量不佳、罕见疾病和神经眼科领域，AI准确率可能下降³⁾，因此一旦怀疑有异常，尽快就诊眼科非常重要。

6. 技术基础：深度学习的原理

一张在眼底照片上叠加Grad-CAM热力图的图像。以色标显示AI对正常眼、疑似青光眼和疑似糖尿病视网膜病变三类的关注区域

Arias-Serrano I, et al. Artificial intelligence based glaucoma and diabetic retinopathy detection using MATLAB — retrained AlexNet convolutional neural network. F1000Research. 2024;12:14. Figure 8. PMCID: PMC11143403. License: CC BY.

比较图：在正常眼（Non_D）、疑似青光眼（Sus_G）和疑似糖尿病视网膜病变（Sus_R）的眼底照片（左列）上，叠加了AlexNet、ResNet50和GoogLeNet各自的Grad-CAM热力图。红到黄色表示关注度较高，蓝色表示关注度较低；在青光眼病例中，视神经乳头周围出现明显激活，在糖尿病视网膜病变病例中，黄斑到后极部区域出现明显激活。对应本文“技术基础：深度学习的原理”部分所介绍的Grad-CAM和卷积神经网络可视化技术。

卷积神经网络（CNN）

卷积神经网络（CNN：Convolutional Neural Network）是眼科AI诊断的核心技术。

从输入的眼底图像和OCT图像中，自动分层提取特征
浅层识别轮廓、颜色等低级特征，深层识别血管模式、出血、水肿、视神经乳头形态等抽象特征
用大量标注好的训练数据（由专科医生标注的标准图像）反复学习

AI的学习过程

数据收集：大规模收集眼底照片、OCT和视野检查数据
标注：眼科专科医生为每张图像添加标准标签（分期和所见）
学习与优化：反复调整网络参数，使其更接近正确答案
验证与临床试验：在外部队列中评估性能，并在真实临床中进行试点试验

迁移学习（将ImageNet等其他领域的预训练模型应用于眼科图像）被广泛用于在训练数据有限时也能实现高精度。

利用 GAN（生成对抗网络） 生成合成图像，以人工扩充罕见疾病训练数据的研究也在不断推进。

多模态AI

能够同时处理文本（问诊信息）和图像（眼底照片、OCT）的多模态AI，随着大语言模型（如GPT-4）的发展，正在被应用于眼科³⁾。与单一模态的CNN相比，它能够整合更全面的信息，但研究显示，其图像解读能力仍然弱于对文本的理解³⁾。

7. 最新研究与未来展望

基于眼底照片预测全身疾病

利用深度学习分析眼底照片，已有研究表明，仅凭眼底照片就有可能预测年龄、性别、收缩压、吸烟史和HbA1c等全身风险因素⁶⁾。在预测未来心血管事件（心肌梗死、脑卒中）风险方面也已报告一定准确度，眼底照片可能成为观察整体健康状况的窗口，这一可能性备受关注。用于预测痴呆、肾脏疾病和贫血的AI也仍处于研究阶段⁶⁾。

与智能手机眼底相机的整合

使用安装在智能手机上的小型镜头进行眼底摄影，并结合AI分析，已证明在印度糖尿病患者中开展DR筛查具有实用性⁷⁾。其敏感度和特异度均与专业眼底相机相当，结合低成本通用设备的AI筛查有助于在发展中国家和农村地区推广。

与远程医疗的融合

通过将AI筛查与远程医疗结合，预计可改善偏远地区和发展中国家的眼科就医可及性。即使在没有眼科专科医生的机构，AI也可进行初筛，只将阳性病例转给专科医生进行远程判读，从而更有效地利用医疗资源。

在个体化医疗中的应用

目前正在研究由AI提前预测抗VEGF治疗（雷珠单抗、阿柏西普、法瑞西单抗等）的疗效，并为每位患者提出最佳给药方案。基于OCT图像预测治疗效果的模型，可能有助于减少注射次数并改善视力预后。

生成式AI在患者教育和问诊辅助中的应用

大型语言模型（如GPT-4）正在被研究用于向患者解释疾病、制作知情同意文件以及辅助问诊等³⁾。不过，如何防止医疗信息出现错误或偏差，以及如何维持医患关系，仍是课题。并不建议患者仅依靠聊天机器人来决定自我诊断或自我治疗³⁾。

8. 参考文献

Wu JH, Liu TYA, Hsu WT, et al. Performance and limitation of machine learning algorithms for diabetic retinopathy screening: meta-analysis. J Med Internet Res. 2021;23(11):e23863.
Abràmoff MD, Lavin PT, Birch M, Shah N, Folk JC. Pivotal trial of an autonomous AI-based diagnostic system for detection of diabetic retinopathy in primary care offices. NPJ digital medicine. 2018;1:39. doi:10.1038/s41746-018-0040-6. PMID:31304320; PMCID:PMC6550188.
Mihalache A, Popovic MM, Guo MZ, et al. Performance of an upgraded artificial intelligence chatbot for ophthalmic knowledge assessment. JAMA Ophthalmol. 2024;142(3):234-241.
Olvera-Barrios A, Heeren TF, Balaskas K, et al. Diagnostic accuracy of diabetic retinopathy grading by an artificial intelligence-enabled algorithm compared with a human standard reference. Diabetologia. 2023;66(5):857-866.
Brown JM, Campbell JP, Beers A, et al. Automated diagnosis of plus disease in retinopathy of prematurity using deep convolutional neural networks. JAMA Ophthalmol. 2018;136(7):803-810.
Poplin R, Varadarajan AV, Blumer K, Liu Y, McConnell MV, Corrado GS, et al. Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning. Nature biomedical engineering. 2018;2(3):158-164. doi:10.1038/s41551-018-0195-0. PMID:31015713.
Rajalakshmi R, Subashini R, Anjana RM, et al. Automated diabetic retinopathy detection in smartphone-based fundus photography using artificial intelligence. Eye. 2018;32(6):1138-1144.
Ting DSW, Cheung CY, Lim G, Tan GSW, Quang ND, Gan A, et al. Development and Validation of a Deep Learning System for Diabetic Retinopathy and Related Eye Diseases Using Retinal Images From Multiethnic Populations With Diabetes. JAMA. 2017;318(22):2211-2223. doi:10.1001/jama.2017.18152. PMID:29234807; PMCID:PMC5820739.