跳到內容
其他

眼科AI診斷的現在與未來(AI Diagnosis in Ophthalmology)

AI(人工智慧)是模仿人類智慧的機器學習系統的總稱。深度學習(DL)是 AI 的子集,使用多層神經網路來提取高階特徵並做出複雜判斷1)

眼科是 AI 應用發展最成熟的醫療領域之一。眼底照片、OCT光學同調斷層掃描)、視野檢查等影像資料已標準化,因此較容易取得大量訓練資料。AI 的主要應用目的有以下 3 點。

  • 提升篩檢效率(減輕眼科專科醫師的判讀負擔)
  • 改善專科醫師不足地區的可近性
  • 提升診斷準確性的均一化(縮小不同機構間的差距)

2018 年,FDA 核准了第一個完全自主型 AI 診斷系統(IDx-DR),加速了眼科 AI 診斷的實用化2)。IDx-DR 可由內科與初級照護現場的非眼科醫護人員操作,並可自動判定是否需要轉診至眼科專科醫師2)

深度學習系統在偵測糖尿病視網膜病變青光眼AMD 方面顯示出與專科醫師相當的準確度,並已顯示出利用眼底照片進行 AI 診斷的可能性8)

Q AI 在眼科中如何應用?
A

AI 會自動分析眼底照片和 OCT 影像,以偵測糖尿病視網膜病變青光眼、年齡相關黃斑變性等疾病。篩檢 AI(完全自主型)可由非眼科醫師操作,並用於專科醫師不足地區的初篩。此外,關於 AI 聊天機器人(如 GPT-4)用於評估眼科知識和患者教育的研究也在進行中3)。最終診斷由眼科專科醫師完成,AI 作為輔助工具。

眼科 AI 按功能和自主程度大致分為以下三類。

篩檢 AI(完全自主型)

它會自動分析眼底照片,並判斷是否無需轉診或需要轉診。即使在沒有眼科專科醫師的情況下也可運行,並應用於以下疾病2)

診斷支援AI(半自主型)

這是一種輔助醫師判讀的系統。它可用於透過OCT層結構的自動分割進行AMD分型分類,以及評估糖尿病黃斑水腫(DME)的嚴重程度等。

AI聊天機器人(多模態型)

這是大型語言模型的應用,可同時解析文字(問診資訊)與影像(眼底照片、OCT)。ChatGPT-4的眼科知識與影像解讀能力已受到評估,正考慮用於病患衛教與遠距問診3)

AI種類代表系統對象準確度指標
篩檢AI(自主型)IDx-DR2)糖尿病視網膜病變靈敏度87.2%、特異度90.7%
篩查AI(自主型)i-ROP DL5)ROP敏感度91%,特異度91%
篩查AI(自主型)EyeArt4)糖尿病視網膜病變已在英國NHS評估並使用
AI聊天機器人ChatGPT-43)眼科知識評估整體正確率70%

2)是2018年獲得FDA核准的第一個完全自主AI診斷系統。由非眼科醫護人員使用免散瞳眼底相機拍攝,AI會自動分析並判定是否轉診。已逐漸導入基層醫療機構。

主要效能指標(Abràmoff等人2018年關鍵試驗)2)

  • 敏感度:87.2%(偵測中度以上糖尿病視網膜病變
  • 特異度:90.7%
  • 陽性預測值:49.7%,陰性預測值:98.5%

IDx-DR使內科與基層醫療機構得以進行自主DR篩檢,並可有效篩選出需要轉介眼科專科醫師的病例2)

AI聊天機器人(ChatGPT-4)的眼科影像解讀

Section titled “AI聊天機器人(ChatGPT-4)的眼科影像解讀”

已評估GPT-4在眼科多選題中的正確率3),整體正確率為70%。

  • 整體正確率:70%(299/428題)
  • 各領域正確率排名:
領域正確率
視網膜77%(最高)3)
眼腫瘤72%3)
小兒眼科68%3)
葡萄膜炎67%3)
青光眼61%3)
神經眼科58%(最低)3)
  • 影像型問題:65%,非影像型問題:82%(差17%,P < .001)3)

這一差異顯示,聊天機器人對影像的解讀能力仍不如其對非影像文字的理解能力。有人指出,多模態聊天機器人在臨床環境中的適當整合至關重要3)

IDx-DR(2018年獲FDA核准)

目標疾病糖尿病視網膜病變

準確率:敏感性87.2%,特異度90.7%

特點:完全自主。非眼科醫師可操作。用於內科和初級照護2)

EyeArt(Eyenuk)

目標疾病糖尿病視網膜病變

準確率:已在英國NHS中評估並實際應用

特點:已整合至篩檢計畫中4)

i-ROP DL(2018)

目標疾病早產兒視網膜病變ROP

準確性:敏感性91%,特異性91%

特點:在新生兒加護病房(NICU)中自動偵測plus病變5)

ChatGPT-4(OpenAI)

對象:眼科知識和影像判讀評估

準確性:整體正確率70%(視網膜77%,神經眼科58%)

特點:用於病人衛教和遠距問診的研究階段3)

Q AI在眼科診斷上的準確度有多高?
A

糖尿病視網膜病變篩檢AI(IDx-DR)的敏感性為87.2%,特異性為90.7%,其準確度與眼科專科醫師的判讀相當2)。用於早產兒視網膜病變ROP)的AI(i-ROP DL)也達到了91%的敏感性和91%的特異性5)。另一方面,在對AI聊天機器人(ChatGPT-4)的眼科知識評估中,整體正確率為70%,而在神經眼科領域僅為58%3)。這些AI都只是輔助工具,如果發現異常,仍需由眼科專科醫師進行詳細檢查。

AI眼科篩檢的成本效益證據已在多項研究中累積1)

Wu等人的系統性回顧(2021年)分析了15項評估AI輔助DR篩檢經濟性的研究,其中11項認為具成本效益1)

  • 蘇格蘭NHS:每年節省$403,200
  • 美國(IDx-DR/EyeArt):每位患者成本降低23.3%
  • 中國農村地區:AI篩檢比人工判讀者便宜$34.86,QALY提升0.04
地區/場景成本效益評估來源
蘇格蘭NHS每年節省$403,200Wu 20211)
美國基層醫療每位患者成本降低23.3%Wu 20211)
中國農村地區比人工分級員便宜$34.86,+0.04 QALYWu 20211)
日本(AMD,Tamura et al. 2022)ICER $99,283/QALY(超過閾值)Wu 20211)

有報告指出,自主AI篩檢與遠距醫療、眼底鏡檢查和輔助AI相比,成本效益最高1)。在支付意願閾值為$7時,與輔助篩檢相比具有成本效益1)

AMD(年齡相關性黃斑部退化)篩檢

Section titled “AMD(年齡相關性黃斑部退化)篩檢”

在日本隊列模擬(40歲以上500,000人,患病率3.85%)中,AI每3年篩檢的ICER為$99,283/QALY($92,890-$99,283)1)。這超過了日本的支付意願閾值(約$47,286/QALY),因此目前AMD篩檢的成本效益仍存疑1)。不過,隨著AI技術進步和成本下降,未來可能有所改善。

  • 訓練資料偏差:在偏向特定種族或年齡層的訓練資料中,其他族群的準確率會下降1)
  • 畫質依賴性:眼底照片的畫質(是否散瞳、介質混濁、拍攝條件)會直接影響 AI 準確率
  • 難以因應罕見疾病:對於訓練資料很少的疾病,無法取得足夠的準確率
  • 黑箱問題:AI 判斷依據不透明,臨床醫師難以履行說明責任1)
  • 神經眼科的低準確率:ChatGPT-4 在神經眼科的正確率為 58%,是最低的,對複雜視神經疾病的解讀也有侷限3)

以下是眼科 AI 的倫理與法律問題1)

  • 患者隱私與資料安全:建立關於眼底影像雲端管理與國際共享的規範
  • 誤診時的責任歸屬:若 AI 誤診,責任在醫師還是 AI 製造商
  • 法規與核准流程:FDA(美國)、藥機法(日本)等對 AI 醫療器材的適當評估制度
  • 確保可解釋性(explainability):以臨床醫師與患者都能理解的方式呈現 AI 判斷依據的重要性
  • 初期導入成本(硬體、軟體、人才訓練)有時較高1)
  • 低收入國家與高收入國家之間的成本效益差異很大1)
  • 各國正在推進保險給付制度的整備,日本國內的實作仍處於發展階段
Q AI眼科診斷安全嗎?
A

FDA等監管機關核准的系統(如IDx-DR)已經經過嚴格的臨床試驗,確認具有一定的安全性2)。不過,AI診斷只是輔助工具,最終的診斷與治療方針應由眼科專科醫師判斷。不建議患者只靠AI聊天機器人(如ChatGPT)自行診斷。在影像品質不佳、罕見疾病與神經眼科領域,AI準確度可能下降3),因此一旦懷疑有異常,及早就診眼科很重要。

在眼底照片上疊加Grad-CAM熱度圖的圖像。以色階顯示AI對正常眼、疑似青光眼與疑似糖尿病視網膜病變三類的關注區域
在眼底照片上疊加Grad-CAM熱度圖的圖像。以色階顯示AI對正常眼、疑似青光眼與疑似糖尿病視網膜病變三類的關注區域
Arias-Serrano I, et al. Artificial intelligence based glaucoma and diabetic retinopathy detection using MATLAB — retrained AlexNet convolutional neural network. F1000Research. 2024;12:14. Figure 8. PMCID: PMC11143403. License: CC BY.
比較圖:在正常眼(Non_D)、疑似青光眼(Sus_G)與疑似糖尿病視網膜病變(Sus_R)的眼底照片(左欄)上,疊加AlexNet、ResNet50與GoogLeNet各自的Grad-CAM熱度圖。紅到黃色表示較高的關注度,藍色表示較低的關注度;在青光眼病例中,視神經乳頭周圍出現強烈活化,在糖尿病視網膜病變病例中,黃斑到後極部區域出現強烈活化。這對應於本文「技術基礎:深度學習的原理」一節中所介紹的Grad-CAM與卷積神經網路可視化技術。

卷積神經網路(CNN:Convolutional Neural Network)是眼科AI診斷的核心技術。

  • 從輸入的眼底影像與OCT影像中,自動分層擷取特徵
  • 淺層辨識輪廓、顏色等低階特徵,深層辨識血管模式、出血、水腫、視神經乳頭形狀等抽象特徵
  • 用大量標註好的訓練資料(由專科醫師標註的標準影像)反覆學習
  1. 資料收集:大規模收集眼底照片、OCT視野檢查資料
  2. 標註:眼科專科醫師為每張影像加上標準標籤(分期和所見)
  3. 學習與最佳化:反覆調整網路參數,使其更接近正確答案
  4. 驗證與臨床試驗:在外部隊列中評估效能,並在真實臨床中進行試辦試驗

遷移學習(將ImageNet等其他領域的預訓練模型應用於眼科影像)被廣泛用作即使訓練資料有限也能達到高準確度的方法。

利用 GAN(生成對抗網路) 產生合成影像,以人工擴充罕見疾病訓練資料的研究也在持續進行。

能同時處理文字(問診資訊)和影像(眼底照片、OCT)的多模態AI,隨著大型語言模型(如GPT-4)的發展,正逐漸應用於眼科3)。與單一模態的CNN相比,它能整合更全面的資訊,但研究顯示,其影像解讀能力仍然弱於對文字的理解3)

利用深度學習分析眼底照片,已有研究顯示,僅憑眼底照片就有可能預測年齡、性別、收縮壓、吸菸史與HbA1c等全身風險因子6)。在預測未來心血管事件(心肌梗塞、腦中風)風險方面也已報告一定準確度,眼底照片可能成為觀察整體健康狀況的窗口,這一可能性備受關注。用來預測失智症、腎臟疾病與貧血的AI也仍處於研究階段6)

使用安裝在智慧型手機上的小型鏡頭進行眼底攝影,並結合AI分析,已證實在印度糖尿病患者中進行DR篩檢具有實用性7)。其敏感度與特異度皆與專業眼底相機相當,結合低成本通用設備的AI篩檢有助於在開發中國家與農村地區推廣。

透過將AI篩檢與遠距醫療結合,預計可改善偏遠地區與開發中國家的眼科就醫可近性。即使在沒有眼科專科醫師的機構,AI也可進行初步篩檢,只將陽性個案交由專科醫師遠端判讀,從而更有效地運用醫療資源。

目前正在研究由AI提前預測抗VEGF治療(雷珠單抗阿柏西普法瑞西單抗等)的治療反應,並為每位患者提出最佳給藥計畫。根據OCT影像預測治療效果的模型,可能有助於減少注射次數並改善視力預後。

生成式AI在病人教育與問診輔助上的應用

Section titled “生成式AI在病人教育與問診輔助上的應用”

大型語言模型(如GPT-4)正被研究用於向病人解釋疾病、製作知情同意文件,以及協助問診等3)。不過,如何防止醫療資訊出現錯誤或偏差,以及如何維持醫病關係,仍是課題。並不建議病人僅依靠聊天機器人來決定自我診斷或自我治療3)

  1. Wu JH, Liu TYA, Hsu WT, et al. Performance and limitation of machine learning algorithms for diabetic retinopathy screening: meta-analysis. J Med Internet Res. 2021;23(11):e23863.

  2. Abràmoff MD, Lavin PT, Birch M, Shah N, Folk JC. Pivotal trial of an autonomous AI-based diagnostic system for detection of diabetic retinopathy in primary care offices. NPJ digital medicine. 2018;1:39. doi:10.1038/s41746-018-0040-6. PMID:31304320; PMCID:PMC6550188.

  3. Mihalache A, Popovic MM, Guo MZ, et al. Performance of an upgraded artificial intelligence chatbot for ophthalmic knowledge assessment. JAMA Ophthalmol. 2024;142(3):234-241.

  4. Olvera-Barrios A, Heeren TF, Balaskas K, et al. Diagnostic accuracy of diabetic retinopathy grading by an artificial intelligence-enabled algorithm compared with a human standard reference. Diabetologia. 2023;66(5):857-866.

  5. Brown JM, Campbell JP, Beers A, et al. Automated diagnosis of plus disease in retinopathy of prematurity using deep convolutional neural networks. JAMA Ophthalmol. 2018;136(7):803-810.

  6. Poplin R, Varadarajan AV, Blumer K, Liu Y, McConnell MV, Corrado GS, et al. Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning. Nature biomedical engineering. 2018;2(3):158-164. doi:10.1038/s41551-018-0195-0. PMID:31015713.

  7. Rajalakshmi R, Subashini R, Anjana RM, et al. Automated diabetic retinopathy detection in smartphone-based fundus photography using artificial intelligence. Eye. 2018;32(6):1138-1144.

  8. Ting DSW, Cheung CY, Lim G, Tan GSW, Quang ND, Gan A, et al. Development and Validation of a Deep Learning System for Diabetic Retinopathy and Related Eye Diseases Using Retinal Images From Multiethnic Populations With Diabetes. JAMA. 2017;318(22):2211-2223. doi:10.1001/jama.2017.18152. PMID:29234807; PMCID:PMC5820739.

複製全文後,可以貼到你常用的 AI 助手中提問。