眼科AI診断の現在と未来（AI Diagnosis in Ophthalmology）

ひとめでわかるポイント

眼科はAI（人工知能）応用が最も進んだ医療分野の一つであり、眼底写真・OCTなどの標準化された画像データがAI学習に適している。
2018年にFDAが初の完全自律型AI診断システム（IDx-DR）を承認し、糖尿病網膜症スクリーニングの自動化が実用段階に入った²⁾。
AIチャットボット（ChatGPT-4）の眼科知識評価では全体正解率70%であり、網膜領域が77%（最高）、神経眼科が58%（最低）と分野差がある³⁾。
糖尿病網膜症AIスクリーニングは15研究中11研究でコスト効果ありと評価され、スコットランドNHSでは年間約40万ドルの節約が報告されている¹⁾。
AI精度は画質・学習データの偏り（バイアス）・希少疾患への対応に課題が残る¹⁾。
AI診断は補助ツールであり、最終的な診断・治療方針は眼科専門医が判断する。
眼底写真から心血管リスク・認知症などの全身疾患を予測するAI研究が進んでいる⁶⁾。

1. 眼科AI診断とは

AI（人工知能）とは、人間の知能を模倣した機械学習システムの総称である。深層学習（ディープラーニング、DL）はAIのサブセットであり、多層ニューラルネットワークを用いて高度な特徴量を抽出し、複雑な判断を行う¹⁾。

眼科はAI応用が最も進んだ医療分野の一つである。眼底写真・OCT（光干渉断層計）・視野検査などの画像データが標準化されており、大量の学習データを確保しやすい。AIの主な応用目的は以下の3点である。

スクリーニング効率化（眼科専門医の読影負担軽減）
専門医不足地域でのアクセス改善
診断精度の均質化（施設間格差の縮小）

2018年にFDAが初の完全自律型AI診断システム（IDx-DR）を承認し、眼科AI診断の実用化が加速した²⁾。IDx-DR は非眼科医のスタッフが内科・プライマリケアの現場で操作でき、眼科専門医への紹介要否を自動判定する²⁾。

深層学習システムが糖尿病網膜症・緑内障・AMDの検出において専門医に匹敵する精度を示し、眼底写真を用いたAI診断の可能性が示されている⁸⁾。

Q 眼科でAIはどのように使われているか？

眼底写真やOCTの画像をAIが自動解析し、糖尿病網膜症・緑内障・加齢黄斑変性などの疾患を検出する。スクリーニングAI（完全自律型）は非眼科医が操作可能であり、専門医不足地域での一次スクリーニングに活用されている。また、AIチャットボット（GPT-4等）の眼科知識評価・患者教育への応用も研究されている³⁾。最終診断は眼科専門医が行う補助ツールとして位置づけられる。

2. AIの種類と対象疾患

眼科AIは機能と自律性のレベルによって以下の3種類に大別される。

スクリーニングAI（完全自律型）

眼底写真を自動解析し、「紹介不要」または「要紹介」を判定する。眼科専門医が不在の状況でも稼働可能であり、以下の疾患に応用されている²⁾。

糖尿病網膜症（DR）：最も研究・実用化が進む
加齢黄斑変性（AMD）：ドルーゼン・新生血管の検出
緑内障：視神経乳頭・神経線維層の自動解析
未熟児網膜症（ROP）：新生児ICUでの新生児スクリーニング
網膜芽細胞腫：小児の眼底モニタリング

診断支援AI（半自律型）

医師の読影を補助するシステムである。OCTの層構造の自動セグメンテーションによるAMD病型分類、糖尿病黄斑浮腫（DME）の重症度評価などに活用されている。

AIチャットボット（マルチモーダル型）

テキスト（問診情報）と画像（眼底写真・OCT）を同時に解析する大規模言語モデルの応用である。ChatGPT-4の眼科知識・画像解釈能力が評価されており、患者教育・遠隔問診への活用が検討されている³⁾。

AI種別	代表システム	対象	精度指標
スクリーニングAI（自律型）	IDx-DR²⁾	糖尿病網膜症	感度87.2%、特異度90.7%
スクリーニングAI（自律型）	i-ROP DL⁵⁾	ROP	感度91%、特異度91%
スクリーニングAI（自律型）	EyeArt⁴⁾	糖尿病網膜症	英国NHSで評価・使用中
AIチャットボット	ChatGPT-4³⁾	眼科知識評価	全体正解率70%

3. 主要なAIシステムと診断精度

IDx-DR（Digital Diagnostics）

2018年にFDAが承認した初の完全自律型AI診断システムである²⁾。非眼科医のスタッフが無散瞳眼底カメラで撮影し、AIが自動解析・紹介判定を行う。プライマリケア施設での導入が進んでいる。

主要な性能指標（Abràmoffら 2018年の枢軸試験）²⁾：

感度：87.2%（中等症以上の糖尿病網膜症の検出）
特異度：90.7%
陽性適中率：49.7%、陰性適中率：98.5%

IDx-DRにより内科・プライマリケア施設での自律的なDRスクリーニングが実現し、眼科専門医への紹介が必要な症例を効率的に選別できる²⁾。

AIチャットボット（ChatGPT-4）の眼科画像解釈

GPT-4を用いた眼科多選択式問題の正解率が評価されており³⁾、全体正解率は70%である。

全体正解率：70%（299/428問）
分野別正解率の順位：

分野	正解率
網膜	77%（最高）³⁾
眼腫瘍	72%³⁾
小児眼科	68%³⁾
ぶどう膜炎	67%³⁾
緑内障	61%³⁾
神経眼科	58%（最低）³⁾

画像ベース問題：65%、非画像ベース問題：82%（差17%、P < .001）³⁾

この差は、チャットボットの画像解釈能力が依然として非画像テキスト理解に劣ることを示す。マルチモーダルチャットボットの医療現場における適切な統合が不可欠であることが指摘されている³⁾。

IDx-DR（2018年FDA承認）

対象疾患：糖尿病網膜症

精度：感度87.2%、特異度90.7%

特徴：完全自律型。非眼科医が操作可能。内科・プライマリケアで使用²⁾

EyeArt（Eyenuk）

対象疾患：糖尿病網膜症

精度：英国NHSで評価・実用化済み

特徴：スクリーニングプログラムへの統合実績あり⁴⁾

i-ROP DL（2018年）

対象疾患：未熟児網膜症（ROP）

精度：感度91%、特異度91%

特徴：新生児ICUでの自動plus病変検出⁵⁾

ChatGPT-4（OpenAI）

対象：眼科知識・画像解釈評価

精度：全体正解率70%（網膜77%、神経眼科58%）

特徴：患者教育・遠隔問診への応用研究段階³⁾

Q AIの眼科診断はどの程度正確か？

糖尿病網膜症スクリーニングAI（IDx-DR）は感度87.2%、特異度90.7%であり、眼科専門医の読影に匹敵する精度が確認されている²⁾。未熟児網膜症（ROP）用AI（i-ROP DL）も感度91%・特異度91%を達成している⁵⁾。一方、AIチャットボット（ChatGPT-4）の眼科知識評価では全体正解率70%であり、神経眼科領域では58%と低い³⁾。いずれもAIは補助ツールであり、異常が検出された場合は眼科専門医による精密検査が必要である。

4. 費用対効果と医療経済

AIを用いた眼科スクリーニングの費用対効果については複数の研究でエビデンスが蓄積されている¹⁾。

糖尿病網膜症（DR）スクリーニング

Wuらの系統的レビュー（2021年）では、AIを用いたDRスクリーニングの経済評価を行った15研究中11研究がコスト効果ありと評価した¹⁾。

スコットランドNHS：年間$403,200の節約
米国（IDx-DR/EyeArt）：患者1人当たり23.3%のコスト削減
中国農村部：AIスクリーニングは人間グレーダーより$34.86安価で、0.04 QALY向上

地域・設定	費用対効果の評価	出典
スコットランドNHS	年間$403,200節約	Wu 2021¹⁾
米国プライマリケア	23.3%コスト削減（患者1人当たり）	Wu 2021¹⁾
中国農村部	人間グレーダーより$34.86安価、+0.04 QALY	Wu 2021¹⁾
日本（AMD、田村ら2022）	ICER $99,283/QALY（閾値超過）	Wu 2021¹⁾

未熟児網膜症（ROP）スクリーニング

自律AIスクリーニングは遠隔医療・眼底鏡検査・補助AIと比較して費用対効果が最も高いと報告されている¹⁾。支払意欲閾値$7で補助スクリーニングとの比較でコスト効果ありとされた¹⁾。

AMD（加齢黄斑変性）スクリーニング

田村ら（2022年）の日本人コホートシミュレーション（40歳以上50万人、有病率3.85%）では、3年毎のAIスクリーニングのICERは$99,283/QALY（$92,890〜$99,283）であった¹⁾。日本の支払意欲閾値（約$47,286/QALY）を超過しており、現時点ではAMDスクリーニングの費用対効果には疑問が残る¹⁾。ただし、AI技術の進歩・コスト低下により将来的な改善の可能性がある。

5. 課題と限界

技術的課題

学習データのバイアス：特定人種・年齢層に偏った学習データでは、他集団での精度が低下する¹⁾
画質依存性：眼底写真の画質（散瞳有無・媒体混濁・撮影条件）がAI精度に直接影響する
希少疾患への対応困難：学習データが少ない疾患では十分な精度が得られない
ブラックボックス問題：AIの判断根拠が不透明であり、臨床医が説明責任を果たしにくい¹⁾
神経眼科の低精度：ChatGPT-4の正解率は神経眼科で58%と最低であり、複雑な視神経疾患の解釈に限界がある³⁾

倫理・法規制の課題

眼科AIの倫理的・法的課題として以下が挙げられる¹⁾。

患者プライバシー・データセキュリティ：眼底画像のクラウド管理・国際共有に関する規制整備
誤診時の責任所在：AI誤診の場合、医師・AIメーカーのどちらに責任があるか
規制・承認プロセス：FDA（米国）・薬機法（日本）等によるAI医療機器の適切な評価体制
説明可能性（explainability）の確保：AIの判断根拠を臨床医・患者が理解できる形で提示することの重要性

医療経済的課題

初期導入コスト（ハードウェア・ソフトウェア・人材教育）が高額である場合がある¹⁾
低所得国と高所得国でのコスト効果の差異が大きい¹⁾
保険償還の制度整備が各国で進行中であり、日本国内の実装状況は発展途上にある

Q AIの眼科診断は安全か？

FDAなどの規制当局が承認したシステム（IDx-DRなど）は厳格な臨床試験を経ており、一定の安全性が確認されている²⁾。ただし、AI診断は補助ツールであり、最終的な診断・治療方針は眼科専門医が判断する。患者がAIチャットボット（ChatGPTなど）のみで自己診断することは推奨されない。画質不良・希少疾患・神経眼科領域ではAI精度が低下することがあり³⁾、異常が疑われる場合は速やかに眼科を受診することが重要である。

6. 技術的基盤：深層学習のしくみ

眼底写真にGrad-CAMヒートマップを重畳した画像。正常眼・緑内障疑い・糖尿病網膜症疑いの3カテゴリに対するAIの注目領域を色スケールで示す

Arias-Serrano I, et al. Artificial intelligence based glaucoma and diabetic retinopathy detection using MATLAB — retrained AlexNet convolutional neural network. F1000Research. 2024;12:14. Figure 8. PMCID: PMC11143403. License: CC BY.

正常眼（Non_D）・緑内障疑い（Sus_G）・糖尿病網膜症疑い（Sus_R）の眼底写真（左列）に、AlexNet・ResNet50・GoogLeNetそれぞれのGrad-CAMヒートマップを重畳した比較図。赤〜黄色が高い注目度、青が低い注目度を示し、緑内障例では視神経乳頭周囲、DR例では黄斑〜後極部に強い活性化が認められる。本文「技術的基盤：深層学習のしくみ」の項で扱うGrad-CAMと畳み込みニューラルネットワークの可視化技術に対応する。

畳み込みニューラルネットワーク（CNN）

畳み込みニューラルネットワーク（CNN：Convolutional Neural Network）は眼科AI診断の中核技術である。

入力された眼底画像・OCT画像から階層的に特徴量を自動抽出する
浅い層では輪郭・色などの低次特徴を、深い層では血管パターン・出血・浮腫・視神経乳頭形状などの抽象的特徴を認識する
大量の教師データ（専門医がラベル付けした正解画像）で繰り返し学習する

AIの学習プロセス

データ収集：眼底写真・OCT・視野検査データの大規模収集
アノテーション：眼科専門医が各画像に正解ラベル（病期・所見）を付与
学習・最適化：ネットワークのパラメータを正解に近づけるよう反復調整
検証・臨床試験：外部コホートでの性能評価と実臨床でのパイロット試験

転移学習（ImageNetなど他ドメインの学習済みモデルを眼科画像に適用）は、学習データが限られる場合でも高精度を達成する手法として広く用いられる。

GAN（敵対的生成ネットワーク） を用いた合成画像の生成により、希少疾患の学習データを人工的に拡張する研究も進んでいる。

マルチモーダルAI

テキスト（問診情報）と画像（眼底写真・OCT）を同時に処理するマルチモーダルAIは、大規模言語モデル（GPT-4等）の発展とともに眼科に応用されつつある³⁾。単一モダリティのCNNより多面的な情報を統合できる一方、画像解釈能力はテキスト理解に比べて依然として劣ることが示されている³⁾。

7. 最新の研究と今後の展望

眼底写真からの全身疾患予測

深層学習を用いた眼底写真解析により、年齢・性別・収縮期血圧・喫煙歴・HbA1cなどの全身リスク因子を眼底写真のみから予測する可能性が示されている⁶⁾。心血管イベント（心筋梗塞・脳卒中）の将来リスク予測においても一定の精度が報告されており、眼底写真が全身健康状態のウィンドウとなる可能性が注目されている。認知症・腎疾患・貧血などの予測AIも研究段階にある⁶⁾。

スマートフォン眼底カメラとの統合

スマートフォンに装着する小型レンズを用いた眼底撮影とAI解析により、インドの糖尿病患者でのDRスクリーニングが実用的であることが示されている⁷⁾。感度・特異度ともに専門的眼底カメラと遜色ない結果が得られており、低コストの汎用機器と組み合わせたAIスクリーニングが途上国・農村部での普及に貢献しうる。

AIと遠隔医療の融合

AIスクリーニングと遠隔医療の統合により、僻地・途上国での眼科アクセス改善が期待されている。眼科専門医が不在の施設でもAIが一次スクリーニングを行い、陽性例のみを専門医の遠隔読影に回すことで、医療資源の効率的な活用が可能となる。

個別化医療への応用

抗VEGF療法（ラニビズマブ・アフリベルセプト・ファリシマブ等）に対する治療反応をAIが事前予測し、個々の患者に最適な投与計画を提示する研究が進んでいる。OCT画像から治療効果予測を行うモデルは、注射回数の削減と視力予後の改善に貢献する可能性がある。

生成AIの患者教育・問診補助への応用

大規模言語モデル（GPT-4等）は患者への病気説明・同意取得文書の作成・問診補助などへの活用が研究されている³⁾。ただし医療情報の誤りや偏りが生じるリスクへの対策と、医師-患者関係の維持が課題である。患者がチャットボットのみで自己診断・自己治療の判断を行うことは推奨されない³⁾。

8. 参考文献

Wu JH, Liu TYA, Hsu WT, et al. Performance and limitation of machine learning algorithms for diabetic retinopathy screening: meta-analysis. J Med Internet Res. 2021;23(11):e23863.
Abràmoff MD, Lavin PT, Birch M, et al. Pivotal trial of an autonomous AI-based diagnostic system for detection of diabetic retinopathy in primary care offices. NPJ Digit Med. 2018;1:39.
Mihalache A, Popovic MM, Guo MZ, et al. Performance of an upgraded artificial intelligence chatbot for ophthalmic knowledge assessment. JAMA Ophthalmol. 2024;142(3):234-241.
Olvera-Barrios A, Heeren TF, Balaskas K, et al. Diagnostic accuracy of diabetic retinopathy grading by an artificial intelligence-enabled algorithm compared with a human standard reference. Diabetologia. 2023;66(5):857-866.
Brown JM, Campbell JP, Beers A, et al. Automated diagnosis of plus disease in retinopathy of prematurity using deep convolutional neural networks. JAMA Ophthalmol. 2018;136(7):803-810.
Poplin R, Varadarajan AV, Blumer K, et al. Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning. Nat Biomed Eng. 2018;2(3):158-164.
Rajalakshmi R, Subashini R, Anjana RM, et al. Automated diabetic retinopathy detection in smartphone-based fundus photography using artificial intelligence. Eye. 2018;32(6):1138-1144.
Ting DSW, Cheung CY, Lim G, et al. Development and validation of a deep learning system for diabetic retinopathy and related eye diseases using retinal images from multiethnic populations with diabetes. JAMA. 2017;318(22):2211-2223.