コンテンツにスキップ
その他

眼科AI診断の現在と未来(AI Diagnosis in Ophthalmology)

AI(人工知能)とは、人間の知能を模倣した機械学習システムの総称である。深層学習(ディープラーニング、DL)はAIのサブセットであり、多層ニューラルネットワークを用いて高度な特徴量を抽出し、複雑な判断を行う1)

眼科はAI応用が最も進んだ医療分野の一つである。眼底写真・OCT光干渉断層計)・視野検査などの画像データが標準化されており、大量の学習データを確保しやすい。AIの主な応用目的は以下の3点である。

  • スクリーニング効率化(眼科専門医の読影負担軽減)
  • 専門医不足地域でのアクセス改善
  • 診断精度の均質化(施設間格差の縮小)

2018年にFDAが初の完全自律型AI診断システム(IDx-DR)を承認し、眼科AI診断の実用化が加速した2)。IDx-DR は非眼科医のスタッフが内科・プライマリケアの現場で操作でき、眼科専門医への紹介要否を自動判定する2)

深層学習システムが糖尿病網膜症緑内障AMDの検出において専門医に匹敵する精度を示し、眼底写真を用いたAI診断の可能性が示されている8)

Q 眼科でAIはどのように使われているか?
A

眼底写真やOCTの画像をAIが自動解析し、糖尿病網膜症緑内障加齢黄斑変性などの疾患を検出する。スクリーニングAI(完全自律型)は非眼科医が操作可能であり、専門医不足地域での一次スクリーニングに活用されている。また、AIチャットボット(GPT-4等)の眼科知識評価・患者教育への応用も研究されている3)。最終診断は眼科専門医が行う補助ツールとして位置づけられる。

眼科AIは機能と自律性のレベルによって以下の3種類に大別される。

スクリーニングAI(完全自律型)

眼底写真を自動解析し、「紹介不要」または「要紹介」を判定する。眼科専門医が不在の状況でも稼働可能であり、以下の疾患に応用されている2)

診断支援AI(半自律型)

医師の読影を補助するシステムである。OCTの層構造の自動セグメンテーションによるAMD病型分類、糖尿病黄斑浮腫(DME)の重症度評価などに活用されている。

AIチャットボット(マルチモーダル型)

テキスト(問診情報)と画像(眼底写真・OCT)を同時に解析する大規模言語モデルの応用である。ChatGPT-4の眼科知識・画像解釈能力が評価されており、患者教育・遠隔問診への活用が検討されている3)

AI種別代表システム対象精度指標
スクリーニングAI(自律型)IDx-DR2)糖尿病網膜症感度87.2%、特異度90.7%
スクリーニングAI(自律型)i-ROP DL5)ROP感度91%、特異度91%
スクリーニングAI(自律型)EyeArt4)糖尿病網膜症英国NHSで評価・使用中
AIチャットボットChatGPT-43)眼科知識評価全体正解率70%

2018年にFDAが承認した初の完全自律型AI診断システムである2)。非眼科医のスタッフが無散瞳眼底カメラで撮影し、AIが自動解析・紹介判定を行う。プライマリケア施設での導入が進んでいる。

主要な性能指標(Abràmoffら 2018年の枢軸試験)2)

  • 感度:87.2%(中等症以上の糖尿病網膜症の検出)
  • 特異度:90.7%
  • 陽性適中率:49.7%、陰性適中率:98.5%

IDx-DRにより内科・プライマリケア施設での自律的なDRスクリーニングが実現し、眼科専門医への紹介が必要な症例を効率的に選別できる2)

AIチャットボット(ChatGPT-4)の眼科画像解釈

Section titled “AIチャットボット(ChatGPT-4)の眼科画像解釈”

GPT-4を用いた眼科多選択式問題の正解率が評価されており3)、全体正解率は70%である。

  • 全体正解率:70%(299/428問)
  • 分野別正解率の順位:
分野正解率
網膜77%(最高)3)
眼腫瘍72%3)
小児眼科68%3)
ぶどう膜炎67%3)
緑内障61%3)
神経眼科58%(最低)3)
  • 画像ベース問題:65%、非画像ベース問題:82%(差17%、P < .001)3)

この差は、チャットボットの画像解釈能力が依然として非画像テキスト理解に劣ることを示す。マルチモーダルチャットボットの医療現場における適切な統合が不可欠であることが指摘されている3)

IDx-DR(2018年FDA承認)

対象疾患糖尿病網膜症

精度:感度87.2%、特異度90.7%

特徴:完全自律型。非眼科医が操作可能。内科・プライマリケアで使用2)

EyeArt(Eyenuk)

対象疾患糖尿病網膜症

精度:英国NHSで評価・実用化済み

特徴:スクリーニングプログラムへの統合実績あり4)

i-ROP DL(2018年)

対象疾患未熟児網膜症ROP

精度:感度91%、特異度91%

特徴:新生児ICUでの自動plus病変検出5)

ChatGPT-4(OpenAI)

対象:眼科知識・画像解釈評価

精度:全体正解率70%(網膜77%、神経眼科58%)

特徴:患者教育・遠隔問診への応用研究段階3)

Q AIの眼科診断はどの程度正確か?
A

糖尿病網膜症スクリーニングAI(IDx-DR)は感度87.2%、特異度90.7%であり、眼科専門医の読影に匹敵する精度が確認されている2)未熟児網膜症ROP)用AI(i-ROP DL)も感度91%・特異度91%を達成している5)。一方、AIチャットボット(ChatGPT-4)の眼科知識評価では全体正解率70%であり、神経眼科領域では58%と低い3)。いずれもAIは補助ツールであり、異常が検出された場合は眼科専門医による精密検査が必要である。

AIを用いた眼科スクリーニングの費用対効果については複数の研究でエビデンスが蓄積されている1)

糖尿病網膜症(DR)スクリーニング

Section titled “糖尿病網膜症(DR)スクリーニング”

Wuらの系統的レビュー(2021年)では、AIを用いたDRスクリーニングの経済評価を行った15研究中11研究がコスト効果ありと評価した1)

  • スコットランドNHS:年間$403,200の節約
  • 米国(IDx-DR/EyeArt):患者1人当たり23.3%のコスト削減
  • 中国農村部:AIスクリーニングは人間グレーダーより$34.86安価で、0.04 QALY向上
地域・設定費用対効果の評価出典
スコットランドNHS年間$403,200節約Wu 20211)
米国プライマリケア23.3%コスト削減(患者1人当たり)Wu 20211)
中国農村部人間グレーダーより$34.86安価、+0.04 QALYWu 20211)
日本(AMD、田村ら2022)ICER $99,283/QALY(閾値超過)Wu 20211)

未熟児網膜症(ROP)スクリーニング

Section titled “未熟児網膜症(ROP)スクリーニング”

自律AIスクリーニングは遠隔医療・眼底鏡検査・補助AIと比較して費用対効果が最も高いと報告されている1)。支払意欲閾値$7で補助スクリーニングとの比較でコスト効果ありとされた1)

AMD(加齢黄斑変性)スクリーニング

Section titled “AMD(加齢黄斑変性)スクリーニング”

田村ら(2022年)の日本人コホートシミュレーション(40歳以上50万人、有病率3.85%)では、3年毎のAIスクリーニングのICERは$99,283/QALY($92,890〜$99,283)であった1)。日本の支払意欲閾値(約$47,286/QALY)を超過しており、現時点ではAMDスクリーニングの費用対効果には疑問が残る1)。ただし、AI技術の進歩・コスト低下により将来的な改善の可能性がある。

  • 学習データのバイアス:特定人種・年齢層に偏った学習データでは、他集団での精度が低下する1)
  • 画質依存性:眼底写真の画質(散瞳有無・媒体混濁・撮影条件)がAI精度に直接影響する
  • 希少疾患への対応困難:学習データが少ない疾患では十分な精度が得られない
  • ブラックボックス問題:AIの判断根拠が不透明であり、臨床医が説明責任を果たしにくい1)
  • 神経眼科の低精度:ChatGPT-4の正解率は神経眼科で58%と最低であり、複雑な視神経疾患の解釈に限界がある3)

眼科AIの倫理的・法的課題として以下が挙げられる1)

  • 患者プライバシー・データセキュリティ:眼底画像のクラウド管理・国際共有に関する規制整備
  • 誤診時の責任所在:AI誤診の場合、医師・AIメーカーのどちらに責任があるか
  • 規制・承認プロセス:FDA(米国)・薬機法(日本)等によるAI医療機器の適切な評価体制
  • 説明可能性(explainability)の確保:AIの判断根拠を臨床医・患者が理解できる形で提示することの重要性
  • 初期導入コスト(ハードウェア・ソフトウェア・人材教育)が高額である場合がある1)
  • 低所得国と高所得国でのコスト効果の差異が大きい1)
  • 保険償還の制度整備が各国で進行中であり、日本国内の実装状況は発展途上にある
Q AIの眼科診断は安全か?
A

FDAなどの規制当局が承認したシステム(IDx-DRなど)は厳格な臨床試験を経ており、一定の安全性が確認されている2)。ただし、AI診断は補助ツールであり、最終的な診断・治療方針は眼科専門医が判断する。患者がAIチャットボット(ChatGPTなど)のみで自己診断することは推奨されない。画質不良・希少疾患・神経眼科領域ではAI精度が低下することがあり3)、異常が疑われる場合は速やかに眼科を受診することが重要である。

6. 技術的基盤:深層学習のしくみ

Section titled “6. 技術的基盤:深層学習のしくみ”
眼底写真にGrad-CAMヒートマップを重畳した画像。正常眼・緑内障疑い・糖尿病網膜症疑いの3カテゴリに対するAIの注目領域を色スケールで示す
眼底写真にGrad-CAMヒートマップを重畳した画像。正常眼・緑内障疑い・糖尿病網膜症疑いの3カテゴリに対するAIの注目領域を色スケールで示す
Arias-Serrano I, et al. Artificial intelligence based glaucoma and diabetic retinopathy detection using MATLAB — retrained AlexNet convolutional neural network. F1000Research. 2024;12:14. Figure 8. PMCID: PMC11143403. License: CC BY.
正常眼(Non_D)・緑内障疑い(Sus_G)・糖尿病網膜症疑い(Sus_R)の眼底写真(左列)に、AlexNet・ResNet50・GoogLeNetそれぞれのGrad-CAMヒートマップを重畳した比較図。赤〜黄色が高い注目度、青が低い注目度を示し、緑内障例では視神経乳頭周囲、DR例では黄斑〜後極部に強い活性化が認められる。本文「技術的基盤:深層学習のしくみ」の項で扱うGrad-CAMと畳み込みニューラルネットワークの可視化技術に対応する。

畳み込みニューラルネットワーク(CNN)

Section titled “畳み込みニューラルネットワーク(CNN)”

畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)は眼科AI診断の中核技術である。

  • 入力された眼底画像・OCT画像から階層的に特徴量を自動抽出する
  • 浅い層では輪郭・色などの低次特徴を、深い層では血管パターン・出血・浮腫・視神経乳頭形状などの抽象的特徴を認識する
  • 大量の教師データ(専門医がラベル付けした正解画像)で繰り返し学習する
  1. データ収集:眼底写真・OCT視野検査データの大規模収集
  2. アノテーション:眼科専門医が各画像に正解ラベル(病期・所見)を付与
  3. 学習・最適化:ネットワークのパラメータを正解に近づけるよう反復調整
  4. 検証・臨床試験:外部コホートでの性能評価と実臨床でのパイロット試験

転移学習(ImageNetなど他ドメインの学習済みモデルを眼科画像に適用)は、学習データが限られる場合でも高精度を達成する手法として広く用いられる。

GAN(敵対的生成ネットワーク) を用いた合成画像の生成により、希少疾患の学習データを人工的に拡張する研究も進んでいる。

テキスト(問診情報)と画像(眼底写真・OCT)を同時に処理するマルチモーダルAIは、大規模言語モデル(GPT-4等)の発展とともに眼科に応用されつつある3)。単一モダリティのCNNより多面的な情報を統合できる一方、画像解釈能力はテキスト理解に比べて依然として劣ることが示されている3)

深層学習を用いた眼底写真解析により、年齢・性別・収縮期血圧・喫煙歴・HbA1cなどの全身リスク因子を眼底写真のみから予測する可能性が示されている6)。心血管イベント(心筋梗塞・脳卒中)の将来リスク予測においても一定の精度が報告されており、眼底写真が全身健康状態のウィンドウとなる可能性が注目されている。認知症・腎疾患・貧血などの予測AIも研究段階にある6)

スマートフォン眼底カメラとの統合

Section titled “スマートフォン眼底カメラとの統合”

スマートフォンに装着する小型レンズを用いた眼底撮影とAI解析により、インドの糖尿病患者でのDRスクリーニングが実用的であることが示されている7)。感度・特異度ともに専門的眼底カメラと遜色ない結果が得られており、低コストの汎用機器と組み合わせたAIスクリーニングが途上国・農村部での普及に貢献しうる。

AIスクリーニングと遠隔医療の統合により、僻地・途上国での眼科アクセス改善が期待されている。眼科専門医が不在の施設でもAIが一次スクリーニングを行い、陽性例のみを専門医の遠隔読影に回すことで、医療資源の効率的な活用が可能となる。

抗VEGF療法ラニビズマブアフリベルセプトファリシマブ等)に対する治療反応をAIが事前予測し、個々の患者に最適な投与計画を提示する研究が進んでいる。OCT画像から治療効果予測を行うモデルは、注射回数の削減と視力予後の改善に貢献する可能性がある。

生成AIの患者教育・問診補助への応用

Section titled “生成AIの患者教育・問診補助への応用”

大規模言語モデル(GPT-4等)は患者への病気説明・同意取得文書の作成・問診補助などへの活用が研究されている3)。ただし医療情報の誤りや偏りが生じるリスクへの対策と、医師-患者関係の維持が課題である。患者がチャットボットのみで自己診断・自己治療の判断を行うことは推奨されない3)

  1. Wu JH, Liu TYA, Hsu WT, et al. Performance and limitation of machine learning algorithms for diabetic retinopathy screening: meta-analysis. J Med Internet Res. 2021;23(11):e23863.

  2. Abràmoff MD, Lavin PT, Birch M, et al. Pivotal trial of an autonomous AI-based diagnostic system for detection of diabetic retinopathy in primary care offices. NPJ Digit Med. 2018;1:39.

  3. Mihalache A, Popovic MM, Guo MZ, et al. Performance of an upgraded artificial intelligence chatbot for ophthalmic knowledge assessment. JAMA Ophthalmol. 2024;142(3):234-241.

  4. Olvera-Barrios A, Heeren TF, Balaskas K, et al. Diagnostic accuracy of diabetic retinopathy grading by an artificial intelligence-enabled algorithm compared with a human standard reference. Diabetologia. 2023;66(5):857-866.

  5. Brown JM, Campbell JP, Beers A, et al. Automated diagnosis of plus disease in retinopathy of prematurity using deep convolutional neural networks. JAMA Ophthalmol. 2018;136(7):803-810.

  6. Poplin R, Varadarajan AV, Blumer K, et al. Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning. Nat Biomed Eng. 2018;2(3):158-164.

  7. Rajalakshmi R, Subashini R, Anjana RM, et al. Automated diabetic retinopathy detection in smartphone-based fundus photography using artificial intelligence. Eye. 2018;32(6):1138-1144.

  8. Ting DSW, Cheung CY, Lim G, et al. Development and validation of a deep learning system for diabetic retinopathy and related eye diseases using retinal images from multiethnic populations with diabetes. JAMA. 2017;318(22):2211-2223.

記事の全文をコピーして、お好みのAIに貼り付けて質問できます