眼科AI診斷的現在與未來（AI Diagnosis in Ophthalmology）

一看就懂的重點

眼科是AI（人工智慧）應用發展最成熟的醫療領域之一，眼底照片和OCT等標準化影像資料很適合用於AI學習。
2018年，FDA核准了第一個完全自主的AI診斷系統（IDx-DR），糖尿病視網膜病變篩檢的自動化進入實際應用階段²⁾。
對 AI 聊天機器人（ChatGPT-4）眼科知識的評估顯示，整體正確率為 70%，不同領域有差異：視網膜領域為 77%（最高），神經眼科為 58%（最低）³⁾。
糖尿病視網膜病變的 AI 篩檢在 15 項研究中有 11 項被評估為具成本效益，蘇格蘭 NHS 報告每年可節省約 40 萬美元¹⁾。
AI 準確性在影像品質、訓練資料偏差（bias）以及罕見疾病的因應方面仍有挑戰¹⁾。
AI 診斷是輔助工具，最終的診斷與治療方針由眼科專科醫師判斷。
利用眼底照片預測心血管風險、失智症等全身性疾病的 AI 研究正在進展中⁶⁾。

1. 什麼是眼科 AI 診斷

AI（人工智慧）是模仿人類智慧的機器學習系統的總稱。深度學習（DL）是 AI 的子集，使用多層神經網路來提取高階特徵並做出複雜判斷¹⁾。

眼科是 AI 應用發展最成熟的醫療領域之一。眼底照片、OCT（光學同調斷層掃描）、視野檢查等影像資料已標準化，因此較容易取得大量訓練資料。AI 的主要應用目的有以下 3 點。

提升篩檢效率（減輕眼科專科醫師的判讀負擔）
改善專科醫師不足地區的可近性
提升診斷準確性的均一化（縮小不同機構間的差距）

2018 年，FDA 核准了第一個完全自主型 AI 診斷系統（IDx-DR），加速了眼科 AI 診斷的實用化²⁾。IDx-DR 可由內科與初級照護現場的非眼科醫護人員操作，並可自動判定是否需要轉診至眼科專科醫師²⁾。

深度學習系統在偵測糖尿病視網膜病變、青光眼和 AMD 方面顯示出與專科醫師相當的準確度，並已顯示出利用眼底照片進行 AI 診斷的可能性⁸⁾。

Q AI 在眼科中如何應用？

AI 會自動分析眼底照片和 OCT 影像，以偵測糖尿病視網膜病變、青光眼、年齡相關黃斑變性等疾病。篩檢 AI（完全自主型）可由非眼科醫師操作，並用於專科醫師不足地區的初篩。此外，關於 AI 聊天機器人（如 GPT-4）用於評估眼科知識和患者教育的研究也在進行中³⁾。最終診斷由眼科專科醫師完成，AI 作為輔助工具。

2. AI 的種類與目標疾病

眼科 AI 按功能和自主程度大致分為以下三類。

篩檢 AI（完全自主型）

它會自動分析眼底照片，並判斷是否無需轉診或需要轉診。即使在沒有眼科專科醫師的情況下也可運行，並應用於以下疾病²⁾。

糖尿病視網膜病變（DR）：研究和實際應用最為成熟
年齡相關黃斑變性（AMD）：玻璃疣和新生血管的檢測
青光眼：視神經乳頭和神經纖維層的自動分析
早產兒視網膜病變（ROP）：新生兒加護病房中的新生兒篩檢
視網膜母細胞瘤：兒童眼底監測

診斷支援AI（半自主型）

這是一種輔助醫師判讀的系統。它可用於透過OCT層結構的自動分割進行AMD分型分類，以及評估糖尿病黃斑水腫（DME）的嚴重程度等。

AI聊天機器人（多模態型）

這是大型語言模型的應用，可同時解析文字（問診資訊）與影像（眼底照片、OCT）。ChatGPT-4的眼科知識與影像解讀能力已受到評估，正考慮用於病患衛教與遠距問診³⁾。

AI種類	代表系統	對象	準確度指標
篩檢AI（自主型）	IDx-DR²⁾	糖尿病視網膜病變	靈敏度87.2%、特異度90.7%
篩查AI（自主型）	i-ROP DL⁵⁾	ROP	敏感度91%，特異度91%
篩查AI（自主型）	EyeArt⁴⁾	糖尿病視網膜病變	已在英國NHS評估並使用
AI聊天機器人	ChatGPT-4³⁾	眼科知識評估	整體正確率70%

3. 主要的AI系統與診斷準確性

IDx-DR（Digital Diagnostics）

²⁾是2018年獲得FDA核准的第一個完全自主AI診斷系統。由非眼科醫護人員使用免散瞳眼底相機拍攝，AI會自動分析並判定是否轉診。已逐漸導入基層醫療機構。

主要效能指標（Abràmoff等人2018年關鍵試驗）²⁾：

敏感度：87.2%（偵測中度以上糖尿病視網膜病變）
特異度：90.7%
陽性預測值：49.7%，陰性預測值：98.5%

IDx-DR使內科與基層醫療機構得以進行自主DR篩檢，並可有效篩選出需要轉介眼科專科醫師的病例²⁾。

AI聊天機器人（ChatGPT-4）的眼科影像解讀

已評估GPT-4在眼科多選題中的正確率³⁾，整體正確率為70%。

整體正確率：70%（299/428題）
各領域正確率排名：

領域	正確率
視網膜	77%（最高）³⁾
眼腫瘤	72%³⁾
小兒眼科	68%³⁾
葡萄膜炎	67%³⁾
青光眼	61%³⁾
神經眼科	58%（最低）³⁾

影像型問題：65%，非影像型問題：82%（差17%，P < .001）³⁾

這一差異顯示，聊天機器人對影像的解讀能力仍不如其對非影像文字的理解能力。有人指出，多模態聊天機器人在臨床環境中的適當整合至關重要³⁾。

IDx-DR（2018年獲FDA核准）

目標疾病：糖尿病視網膜病變

準確率：敏感性87.2%，特異度90.7%

特點：完全自主。非眼科醫師可操作。用於內科和初級照護²⁾

EyeArt（Eyenuk）

目標疾病：糖尿病視網膜病變

準確率：已在英國NHS中評估並實際應用

特點：已整合至篩檢計畫中⁴⁾

i-ROP DL（2018）

目標疾病：早產兒視網膜病變（ROP）

準確性：敏感性91%，特異性91%

特點：在新生兒加護病房（NICU）中自動偵測plus病變⁵⁾

ChatGPT-4（OpenAI）

對象：眼科知識和影像判讀評估

準確性：整體正確率70%（視網膜77%，神經眼科58%）

特點：用於病人衛教和遠距問診的研究階段³⁾

Q AI在眼科診斷上的準確度有多高？

糖尿病視網膜病變篩檢AI（IDx-DR）的敏感性為87.2%，特異性為90.7%，其準確度與眼科專科醫師的判讀相當²⁾。用於早產兒視網膜病變（ROP）的AI（i-ROP DL）也達到了91%的敏感性和91%的特異性⁵⁾。另一方面，在對AI聊天機器人（ChatGPT-4）的眼科知識評估中，整體正確率為70%，而在神經眼科領域僅為58%³⁾。這些AI都只是輔助工具，如果發現異常，仍需由眼科專科醫師進行詳細檢查。

4. 成本效益與醫療經濟

AI眼科篩檢的成本效益證據已在多項研究中累積¹⁾。

糖尿病視網膜病變（DR）篩檢

Wu等人的系統性回顧（2021年）分析了15項評估AI輔助DR篩檢經濟性的研究，其中11項認為具成本效益¹⁾。

蘇格蘭NHS：每年節省$403,200
美國（IDx-DR/EyeArt）：每位患者成本降低23.3%
中國農村地區：AI篩檢比人工判讀者便宜$34.86，QALY提升0.04

地區／場景	成本效益評估	來源
蘇格蘭NHS	每年節省$403,200	Wu 2021¹⁾
美國基層醫療	每位患者成本降低23.3%	Wu 2021¹⁾
中國農村地區	比人工分級員便宜$34.86，+0.04 QALY	Wu 2021¹⁾
日本（AMD，Tamura et al. 2022）	ICER $99,283/QALY（超過閾值）	Wu 2021¹⁾

早產兒視網膜病變（ROP）篩檢

有報告指出，自主AI篩檢與遠距醫療、眼底鏡檢查和輔助AI相比，成本效益最高¹⁾。在支付意願閾值為$7時，與輔助篩檢相比具有成本效益¹⁾。

AMD（年齡相關性黃斑部退化）篩檢

在日本隊列模擬（40歲以上500,000人，患病率3.85%）中，AI每3年篩檢的ICER為$99,283/QALY（$92,890-$99,283）¹⁾。這超過了日本的支付意願閾值（約$47,286/QALY），因此目前AMD篩檢的成本效益仍存疑¹⁾。不過，隨著AI技術進步和成本下降，未來可能有所改善。

5. 挑戰與限制

技術性挑戰

訓練資料偏差：在偏向特定種族或年齡層的訓練資料中，其他族群的準確率會下降¹⁾
畫質依賴性：眼底照片的畫質（是否散瞳、介質混濁、拍攝條件）會直接影響 AI 準確率
難以因應罕見疾病：對於訓練資料很少的疾病，無法取得足夠的準確率
黑箱問題：AI 判斷依據不透明，臨床醫師難以履行說明責任¹⁾
神經眼科的低準確率：ChatGPT-4 在神經眼科的正確率為 58%，是最低的，對複雜視神經疾病的解讀也有侷限³⁾

倫理與法規挑戰

以下是眼科 AI 的倫理與法律問題¹⁾。

患者隱私與資料安全：建立關於眼底影像雲端管理與國際共享的規範
誤診時的責任歸屬：若 AI 誤診，責任在醫師還是 AI 製造商
法規與核准流程：FDA（美國）、藥機法（日本）等對 AI 醫療器材的適當評估制度
確保可解釋性（explainability）：以臨床醫師與患者都能理解的方式呈現 AI 判斷依據的重要性

醫療經濟學問題

初期導入成本（硬體、軟體、人才訓練）有時較高¹⁾
低收入國家與高收入國家之間的成本效益差異很大¹⁾
各國正在推進保險給付制度的整備，日本國內的實作仍處於發展階段

Q AI眼科診斷安全嗎？

FDA等監管機關核准的系統（如IDx-DR）已經經過嚴格的臨床試驗，確認具有一定的安全性²⁾。不過，AI診斷只是輔助工具，最終的診斷與治療方針應由眼科專科醫師判斷。不建議患者只靠AI聊天機器人（如ChatGPT）自行診斷。在影像品質不佳、罕見疾病與神經眼科領域，AI準確度可能下降³⁾，因此一旦懷疑有異常，及早就診眼科很重要。

6. 技術基礎：深度學習的原理

在眼底照片上疊加Grad-CAM熱度圖的圖像。以色階顯示AI對正常眼、疑似青光眼與疑似糖尿病視網膜病變三類的關注區域

Arias-Serrano I, et al. Artificial intelligence based glaucoma and diabetic retinopathy detection using MATLAB — retrained AlexNet convolutional neural network. F1000Research. 2024;12:14. Figure 8. PMCID: PMC11143403. License: CC BY.

比較圖：在正常眼（Non_D）、疑似青光眼（Sus_G）與疑似糖尿病視網膜病變（Sus_R）的眼底照片（左欄）上，疊加AlexNet、ResNet50與GoogLeNet各自的Grad-CAM熱度圖。紅到黃色表示較高的關注度，藍色表示較低的關注度；在青光眼病例中，視神經乳頭周圍出現強烈活化，在糖尿病視網膜病變病例中，黃斑到後極部區域出現強烈活化。這對應於本文「技術基礎：深度學習的原理」一節中所介紹的Grad-CAM與卷積神經網路可視化技術。

卷積神經網路（CNN）

卷積神經網路（CNN：Convolutional Neural Network）是眼科AI診斷的核心技術。

從輸入的眼底影像與OCT影像中，自動分層擷取特徵
淺層辨識輪廓、顏色等低階特徵，深層辨識血管模式、出血、水腫、視神經乳頭形狀等抽象特徵
用大量標註好的訓練資料（由專科醫師標註的標準影像）反覆學習

AI的學習流程

資料收集：大規模收集眼底照片、OCT和視野檢查資料
標註：眼科專科醫師為每張影像加上標準標籤（分期和所見）
學習與最佳化：反覆調整網路參數，使其更接近正確答案
驗證與臨床試驗：在外部隊列中評估效能，並在真實臨床中進行試辦試驗

遷移學習（將ImageNet等其他領域的預訓練模型應用於眼科影像）被廣泛用作即使訓練資料有限也能達到高準確度的方法。

利用 GAN（生成對抗網路） 產生合成影像，以人工擴充罕見疾病訓練資料的研究也在持續進行。

多模態AI

能同時處理文字（問診資訊）和影像（眼底照片、OCT）的多模態AI，隨著大型語言模型（如GPT-4）的發展，正逐漸應用於眼科³⁾。與單一模態的CNN相比，它能整合更全面的資訊，但研究顯示，其影像解讀能力仍然弱於對文字的理解³⁾。

7. 最新研究與未來展望

由眼底照片預測全身疾病

利用深度學習分析眼底照片，已有研究顯示，僅憑眼底照片就有可能預測年齡、性別、收縮壓、吸菸史與HbA1c等全身風險因子⁶⁾。在預測未來心血管事件（心肌梗塞、腦中風）風險方面也已報告一定準確度，眼底照片可能成為觀察整體健康狀況的窗口，這一可能性備受關注。用來預測失智症、腎臟疾病與貧血的AI也仍處於研究階段⁶⁾。

與智慧型手機眼底相機的整合

使用安裝在智慧型手機上的小型鏡頭進行眼底攝影，並結合AI分析，已證實在印度糖尿病患者中進行DR篩檢具有實用性⁷⁾。其敏感度與特異度皆與專業眼底相機相當，結合低成本通用設備的AI篩檢有助於在開發中國家與農村地區推廣。

與遠距醫療的融合

透過將AI篩檢與遠距醫療結合，預計可改善偏遠地區與開發中國家的眼科就醫可近性。即使在沒有眼科專科醫師的機構，AI也可進行初步篩檢，只將陽性個案交由專科醫師遠端判讀，從而更有效地運用醫療資源。

在個人化醫療中的應用

目前正在研究由AI提前預測抗VEGF治療（雷珠單抗、阿柏西普、法瑞西單抗等）的治療反應，並為每位患者提出最佳給藥計畫。根據OCT影像預測治療效果的模型，可能有助於減少注射次數並改善視力預後。

生成式AI在病人教育與問診輔助上的應用

大型語言模型（如GPT-4）正被研究用於向病人解釋疾病、製作知情同意文件，以及協助問診等³⁾。不過，如何防止醫療資訊出現錯誤或偏差，以及如何維持醫病關係，仍是課題。並不建議病人僅依靠聊天機器人來決定自我診斷或自我治療³⁾。

8. 參考文獻

Wu JH, Liu TYA, Hsu WT, et al. Performance and limitation of machine learning algorithms for diabetic retinopathy screening: meta-analysis. J Med Internet Res. 2021;23(11):e23863.
Abràmoff MD, Lavin PT, Birch M, Shah N, Folk JC. Pivotal trial of an autonomous AI-based diagnostic system for detection of diabetic retinopathy in primary care offices. NPJ digital medicine. 2018;1:39. doi:10.1038/s41746-018-0040-6. PMID:31304320; PMCID:PMC6550188.
Mihalache A, Popovic MM, Guo MZ, et al. Performance of an upgraded artificial intelligence chatbot for ophthalmic knowledge assessment. JAMA Ophthalmol. 2024;142(3):234-241.
Olvera-Barrios A, Heeren TF, Balaskas K, et al. Diagnostic accuracy of diabetic retinopathy grading by an artificial intelligence-enabled algorithm compared with a human standard reference. Diabetologia. 2023;66(5):857-866.
Brown JM, Campbell JP, Beers A, et al. Automated diagnosis of plus disease in retinopathy of prematurity using deep convolutional neural networks. JAMA Ophthalmol. 2018;136(7):803-810.
Poplin R, Varadarajan AV, Blumer K, Liu Y, McConnell MV, Corrado GS, et al. Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning. Nature biomedical engineering. 2018;2(3):158-164. doi:10.1038/s41551-018-0195-0. PMID:31015713.
Rajalakshmi R, Subashini R, Anjana RM, et al. Automated diabetic retinopathy detection in smartphone-based fundus photography using artificial intelligence. Eye. 2018;32(6):1138-1144.
Ting DSW, Cheung CY, Lim G, Tan GSW, Quang ND, Gan A, et al. Development and Validation of a Deep Learning System for Diabetic Retinopathy and Related Eye Diseases Using Retinal Images From Multiethnic Populations With Diabetes. JAMA. 2017;318(22):2211-2223. doi:10.1001/jama.2017.18152. PMID:29234807; PMCID:PMC5820739.