안과 AI 진단의 현재와 미래 (AI Diagnosis in Ophthalmology)

한눈에 보는 포인트

안과는 AI(인공지능) 응용이 가장 많이 발전한 의료 분야 중 하나이며, 안저 사진과 OCT 같은 표준화된 영상 데이터는 AI 학습에 적합하다.
2018년에 FDA가 최초의 완전 자율형 AI 진단 시스템(IDx-DR)을 승인하면서, 당뇨망막병증 선별검사의 자동화가 실용 단계에 들어섰다²⁾.
AI 챗봇(ChatGPT-4)의 안과 지식 평가에서는 전체 정답률이 70%였으며, 분야별 차이가 있어 망막 분야가 77%로 가장 높고 신경안과가 58%로 가장 낮았다³⁾.
당뇨망막병증 AI 선별검사는 15개 연구 중 11개에서 비용 효과적이라고 평가되었고, 스코틀랜드 NHS에서는 연간 약 40만 달러의 절감이 보고되었다¹⁾.
AI 정확도는 영상 품질, 학습 데이터의 편향(bias), 희귀질환 대응에서 아직 과제가 남아 있다¹⁾.
AI 진단은 보조 도구이며, 최종 진단과 치료 방침은 안과 전문의가 판단한다.
안저 사진으로 심혈관 위험과 치매 같은 전신질환을 예측하는 AI 연구가 진행되고 있다⁶⁾.

1. 안과 AI 진단이란

AI(인공지능)는 인간의 지능을 모방한 머신러닝 시스템의 총칭이다. 딥러닝(DL)은 AI의 하위 개념으로, 다층 신경망을 사용해 고도화된 특징을 추출하고 복잡한 판단을 수행한다¹⁾.

안과는 AI 응용이 가장 앞선 의료 분야 중 하나다. 안저 사진, OCT(광간섭단층촬영), 시야검사 등의 영상 데이터가 표준화되어 있어 대량의 학습 데이터를 확보하기 쉽다. AI의 주요 활용 목적은 다음 3가지다.

선별검사 효율 향상(안과 전문의의 판독 부담 감소)
전문의가 부족한 지역에서 접근성 개선
진단 정확도의 균질화(기관 간 차이 감소)

2018년 FDA가 첫 완전 자율형 AI 진단 시스템(IDx-DR)을 승인하면서 안과 AI 진단의 실용화가 가속되었다²⁾. IDx-DR은 내과·1차 진료 현장에서 비안과 의료진이 사용할 수 있으며, 안과 전문의에게 의뢰가 필요한지 자동으로 판정한다²⁾.

딥러닝 시스템은 당뇨망막병증, 녹내장, AMD를 감지하는 데 있어 전문의에 견줄 만한 정확도를 보였고, 안저 사진을 이용한 AI 진단의 가능성이 제시되었다⁸⁾.

Q 안과에서 AI는 어떻게 사용되나요?

AI가 안저 사진과 OCT 영상을 자동 분석해 당뇨망막병증, 녹내장, 연령관련 황반변성 등의 질환을 감지한다. 선별 AI(완전 자율형)는 안과 전문의가 아닌 사람도 조작할 수 있으며, 전문의가 부족한 지역의 1차 선별에 활용된다. 또한 AI 챗봇(GPT-4 등)을 안과 지식 평가와 환자 교육에 활용하는 연구도 진행되고 있다³⁾. 최종 진단은 안과 전문의가 수행하는 보조 도구로 자리매김한다.

2. AI의 종류와 대상 질환

안과 AI는 기능과 자율성 수준에 따라 다음의 세 가지로 크게 나뉜다.

선별 AI(완전 자율형)

안저 사진을 자동 분석해 진료 의뢰가 불필요한지 또는 필요한지 판단한다. 안과 전문의가 없는 상황에서도 작동할 수 있으며, 다음 질환에 적용되고 있다²⁾.

당뇨망막병증(DR): 연구와 실제 적용이 가장 많이 진행됨
연령관련 황반변성(AMD): 드루젠과 신생혈관의 검출
녹내장: 시신경유두와 신경섬유층의 자동 분석
미숙아망막병증(ROP): 신생아 중환자실에서의 신생아 선별검사
망막모세포종: 소아 안저 모니터링

진단 보조 AI(반자율형)

의사의 판독을 보조하는 시스템이다. OCT 층 구조의 자동 세분화를 통한 AMD 병형 분류, 당뇨병 황반부종(DME)의 중증도 평가 등에 활용된다.

AI 챗봇(멀티모달형)

텍스트(문진 정보)와 이미지(안저 사진, OCT)를 동시에 분석하는 대규모 언어 모델의 응용이다. ChatGPT-4의 안과 지식과 영상 해석 능력이 평가되었으며, 환자 교육과 원격 문진에의 활용이 검토되고 있다³⁾.

AI 종류	대표 시스템	대상	정확도 지표
스크리닝 AI(자율형)	IDx-DR²⁾	당뇨망막병증	민감도 87.2%, 특이도 90.7%
선별 AI(자율형)	i-ROP DL⁵⁾	ROP	민감도 91%, 특이도 91%
선별 AI(자율형)	EyeArt⁴⁾	당뇨망막병증	영국 NHS에서 평가 및 사용 중
AI 챗봇	ChatGPT-4³⁾	안과 지식 평가	전체 정답률 70%

3. 주요 AI 시스템과 진단 정확도

IDx-DR (Digital Diagnostics)

²⁾는 2018년 FDA가 승인한 최초의 완전 자율형 AI 진단 시스템이다. 안과 전문의가 아닌 직원이 무산동 안저카메라로 촬영하고, AI가 자동으로 분석해 의뢰 여부를 판단한다. 1차 진료 현장에서 도입이 진행되고 있다.

주요 성능 지표(Abràmoff 등의 2018년 핵심 시험)²⁾:

민감도: 87.2% (중등도 이상 당뇨망막병증 검출)
특이도: 90.7%
양성예측도: 49.7%, 음성예측도: 98.5%

IDx-DR을 통해 내과 및 1차 진료 현장에서 자율적인 DR 선별검사가 가능해졌고, 안과 전문의에게 의뢰가 필요한 사례를 효율적으로 가려낼 수 있다²⁾.

AI 챗봇(ChatGPT-4)의 안과 영상 해석

GPT-4를 이용한 안과 객관식 문제의 정답률이 평가되었으며³⁾, 전체 정답률은 70%이다.

전체 정답률: 70% (428문항 중 299문항)
분야별 정답률 순위:

분야	정확도
망막	77%(최고)³⁾
안종양	72%³⁾
소아안과	68%³⁾
포도막염	67%³⁾
녹내장	61%³⁾
신경안과	58% (최저)³⁾

이미지 기반 문제: 65%, 비이미지 기반 문제: 82% (차이 17%, P < .001)³⁾

이 차이는 챗봇의 이미지 해석 능력이 여전히 비이미지 텍스트 이해 능력보다 떨어진다는 점을 보여준다. 다중모달 챗봇의 임상 현장 내 적절한 통합이 필수적이라고 지적되고 있다³⁾.

IDx-DR(2018년 FDA 승인)

대상 질환: 당뇨망막병증

정확도: 민감도 87.2%, 특이도 90.7%

특징: 완전 자율형. 안과 전문의가 아닌 사람도 조작 가능. 내과 및 1차 진료에서 사용²⁾

EyeArt(Eyenuk)

대상 질환: 당뇨망막병증

정확도: 영국 NHS에서 평가되고 실제로 사용 중

특징: 선별 프로그램에 통합된 사례가 있음⁴⁾

i-ROP DL (2018)

대상 질환: 미숙아 망막병증(ROP)

정확도: 민감도 91%, 특이도 91%

특징: 신생아 중환자실(NICU)에서의 plus 병변 자동 검출⁵⁾

ChatGPT-4(OpenAI)

대상: 안과 지식 및 영상 해석 평가

정확도: 전체 정답률 70%(망막 77%, 신경안과 58%)

특징: 환자 교육과 원격 문진 적용을 위한 연구 단계³⁾

Q AI의 안과 진단은 얼마나 정확한가?

당뇨망막병증 선별 AI(IDx-DR)는 민감도 87.2%, 특이도 90.7%를 보여 안과 전문의의 판독에 필적하는 정확도가 확인되었다²⁾. 미숙아 망막병증(ROP)용 AI(i-ROP DL)도 민감도 91%, 특이도 91%를 달성했다⁵⁾. 한편 AI 챗봇(ChatGPT-4)의 안과 지식 평가는 전체 정답률이 70%였고, 신경안과 영역에서는 58%로 더 낮았다³⁾. 이들 모두 AI는 보조 도구이며, 이상이 발견되면 안과 전문의의 정밀검사가 필요하다.

4. 비용 대비 효과와 의료경제

AI를 이용한 안과 선별검사의 비용 대비 효과에 대한 근거가 여러 연구에서 축적되고 있다¹⁾.

당뇨망막병증(DR) 선별검사

Wu 등의 체계적 문헌고찰(2021년)에서는 AI 기반 DR 선별검사의 경제성을 평가한 15개 연구 중 11개가 비용 효과적이라고 평가했다¹⁾.

스코틀랜드 NHS: 연간 $403,200 절감
미국(IDx-DR/EyeArt): 환자 1인당 23.3%의 비용 절감
중국 농촌 지역: AI 선별검사는 사람 판독자보다 $34.86 저렴했고 QALY가 0.04 향상됨

지역/설정	비용-효과 평가	출처
스코틀랜드 NHS	연간 $403,200 절감	Wu 2021¹⁾
미국 1차 진료	환자 1인당 23.3% 비용 절감	Wu 2021¹⁾
중국 농촌 지역	사람 평가자보다 $34.86 저렴, +0.04 QALY	Wu 2021¹⁾
일본(AMD, Tamura et al. 2022)	ICER $99,283/QALY(기준 초과)	Wu 2021¹⁾

미숙아망막병증(ROP) 선별검사

자율 AI 선별검사는 원격의료, 검안경 검사, 보조 AI와 비교해 비용효과가 가장 높다고 보고되었다¹⁾. 지불의사 임계값이 $7일 때 보조 선별검사와 비교해 비용효과적이었다¹⁾.

AMD(연령 관련 황반변성) 선별검사

일본 코호트 시뮬레이션(40세 이상 500,000명, 유병률 3.85%)에서 3년마다 시행하는 AI 선별검사의 ICER는 $99,283/QALY($92,890-$99,283)였다¹⁾. 이는 일본의 지불의사 임계값(약 $47,286/QALY)을 초과하므로, 현재로서는 AMD 선별검사의 비용효과성에 의문이 남는다¹⁾. 다만 AI 기술의 발전과 비용 하락으로 향후 개선될 가능성이 있다.

5. 과제와 한계

기술적 과제

학습 데이터 편향: 특정 인종·연령대에 치우친 학습 데이터에서는 다른 집단에서 정확도가 떨어진다¹⁾
화질 의존성: 안저 사진의 화질(산동 여부, 매체 혼탁, 촬영 조건)이 AI 정확도에 직접 영향을 준다
희귀질환 대응의 어려움: 학습 데이터가 적은 질환에서는 충분한 정확도를 얻기 어렵다
블랙박스 문제: AI 판단 근거가 불투명해 임상의가 설명 책임을 다하기 어렵다¹⁾
신경안과의 낮은 정확도: ChatGPT-4의 정답률은 신경안과에서 58%로 가장 낮았으며, 복잡한 시신경 질환을 해석하는 데 한계가 있다³⁾

윤리·규제상의 과제

안과 AI의 윤리적·법적 과제로 다음이 제시된다¹⁾.

환자 프라이버시·데이터 보안: 안저 이미지의 클라우드 관리와 국제 공유에 대한 규제 정비
오진 시 책임 소재: AI 오진의 경우 의사와 AI 제조사 중 누구에게 책임이 있는가
규제·승인 절차: FDA(미국), 약기법(일본) 등의 AI 의료기기에 대한 적절한 평가 체계
설명가능성(explainability) 확보: AI 판단 근거를 임상의와 환자가 이해할 수 있는 형태로 제시하는 것의 중요성

의료경제적 과제

초기 도입 비용(하드웨어, 소프트웨어, 인력 교육)이 높을 수 있다¹⁾
저소득국과 고소득국 사이의 비용 대비 효과 차이가 크다¹⁾
보험 급여 제도 정비가 각국에서 진행 중이며, 일본 내 도입도 아직 발전 단계에 있다

Q AI 안과 진단은 안전한가?

FDA 등 규제 당국의 승인을 받은 시스템(IDx-DR 등)은 엄격한 임상시험을 거쳐 일정한 안전성이 확인되어 있다²⁾. 다만 AI 진단은 보조 도구이며, 최종 진단과 치료 방침은 안과 전문의가 판단해야 한다. 환자가 AI 챗봇(ChatGPT 등)만으로 자가 진단하는 것은 권장되지 않는다. 화질 불량, 희귀 질환, 신경안과 영역에서는 AI 정확도가 떨어질 수 있으며³⁾, 이상이 의심되면 신속히 안과를 진료받는 것이 중요하다.

6. 기술적 기반: 딥러닝의 구조

안저 사진 위에 Grad-CAM 히트맵을 겹쳐 놓은 이미지. 정상안, 녹내장 의심, 당뇨망막병증 의심의 3개 범주에 대해 AI가 주목하는 부위를 색상으로 표시한 것

Arias-Serrano I, et al. Artificial intelligence based glaucoma and diabetic retinopathy detection using MATLAB — retrained AlexNet convolutional neural network. F1000Research. 2024;12:14. Figure 8. PMCID: PMC11143403. License: CC BY.

정상안(Non_D), 녹내장 의심(Sus_G), 당뇨망막병증 의심(Sus_R)의 안저 사진(왼쪽 열)에 AlexNet, ResNet50, GoogLeNet 각각의 Grad-CAM 히트맵을 겹쳐 비교한 그림. 빨간색에서 노란색일수록 주의도가 높고, 파란색일수록 낮음을 나타낸다. 녹내장 예에서는 시신경유두 주위에서, 당뇨망막병증 예에서는 황반부터 후극부에서 강한 활성화가 보인다. 이는 본문의 「기술적 기반: 딥러닝의 구조」에서 다루는 Grad-CAM과 합성곱 신경망 시각화 기술에 해당한다.

합성곱 신경망(CNN)

합성곱 신경망(CNN: Convolutional Neural Network)은 안과 AI 진단의 핵심 기술이다.

입력된 안저 이미지와 OCT 이미지에서 특징을 계층적으로 자동 추출한다
얕은 층에서는 윤곽과 색 같은 저수준 특징을, 깊은 층에서는 혈관 패턴, 출혈, 부종, 시신경유두 형태 같은 추상적 특징을 인식한다
많은 양의 학습 데이터(전문의가 라벨을 붙인 정답 이미지)로 반복 학습한다

AI의 학습 과정

데이터 수집: 안저 사진, OCT, 시야 검사 데이터의 대규모 수집
주석 달기: 안과 전문의가 각 이미지에 정답 라벨(병기·소견)을 부여
학습·최적화: 네트워크 파라미터를 정답에 가까워지도록 반복 조정
검증·임상시험: 외부 코호트에서의 성능 평가와 실제 임상에서의 파일럿 시험

전이학습(ImageNet 등 다른 분야에서 학습된 모델을 안과 이미지에 적용)은 학습 데이터가 제한적일 때도 높은 정확도를 달성하는 방법으로 널리 사용된다.

GAN(적대적 생성 네트워크) 을 이용해 합성 이미지를 생성하여 희귀질환의 학습 데이터를 인위적으로 확장하는 연구도 진행되고 있다.

멀티모달 AI

텍스트(병력 청취 정보)와 이미지(안저 사진·OCT)를 동시에 처리하는 멀티모달 AI는 대규모 언어 모델(GPT-4 등)의 발전과 함께 안과에 응용되고 있다³⁾. 단일 모달리티의 CNN보다 더 다양한 정보를 통합할 수 있지만, 이미지 해석 능력은 텍스트 이해에 비해 여전히 떨어지는 것으로 나타났다³⁾.

7. 최신 연구와 앞으로의 전망

안저 사진으로 전신 질환 예측

딥러닝을 이용한 안저 사진 분석을 통해, 안저 사진만으로도 나이, 성별, 수축기 혈압, 흡연력, HbA1c 같은 전신 위험 인자를 예측할 가능성이 제시되고 있다⁶⁾. 심혈관 사건(심근경색·뇌졸중)의 장래 위험 예측에서도 일정한 정확도가 보고되어, 안저 사진이 전신 건강 상태를 보여 주는 창이 될 수 있다는 점이 주목받고 있다. 치매·신장질환·빈혈을 예측하는 AI도 연구 단계에 있다⁶⁾.

스마트폰 안저 카메라와의 통합

스마트폰에 부착하는 소형 렌즈를 이용한 안저 촬영과 AI 분석을 통해, 인도 당뇨병 환자에서의 DR 선별검사가 실용적임이 보여졌다⁷⁾. 민감도와 특이도 모두 전문 안저 카메라에 뒤지지 않는 결과가 나왔으며, 저비용 범용 기기와 결합한 AI 선별검사는 개발도상국과 농촌 지역에서의 보급에 기여할 수 있다.

AI와 원격의료의 융합

AI 선별검사와 원격의료의 통합으로, 오지와 개발도상국에서의 안과 접근성 개선이 기대된다. 안과 전문의가 없는 시설에서도 AI가 1차 선별을 수행하고, 양성 사례만 전문의의 원격 판독으로 보내 의료 자원을 효율적으로 활용할 수 있다.

개별화 의료에의 응용

항VEGF 치료(라니비주맙·애플리버셉트·파리시맙 등)에 대한 치료 반응을 AI가 미리 예측하고, 각 환자에게 가장 적합한 투여 계획을 제시하는 연구가 진행되고 있다. OCT 영상에서 치료 효과를 예측하는 모델은 주사 횟수 감소와 시력 예후 개선에 기여할 가능성이 있다.

생성형 AI의 환자 교육·문진 보조 응용

대규모 언어 모델(GPT-4 등)은 환자에게 질병을 설명하고, 동의서 문서를 작성하며, 문진을 보조하는 용도로 활용하는 연구가 진행되고 있다³⁾. 다만 의학 정보의 오류나 편향이 생길 위험을 줄이고, 의사-환자 관계를 유지하는 것이 과제다. 환자가 챗봇만으로 자가진단·자가치료를 판단하는 것은 권장되지 않는다³⁾.

8. 참고 문헌

Wu JH, Liu TYA, Hsu WT, et al. Performance and limitation of machine learning algorithms for diabetic retinopathy screening: meta-analysis. J Med Internet Res. 2021;23(11):e23863.
Abràmoff MD, Lavin PT, Birch M, Shah N, Folk JC. Pivotal trial of an autonomous AI-based diagnostic system for detection of diabetic retinopathy in primary care offices. NPJ digital medicine. 2018;1:39. doi:10.1038/s41746-018-0040-6. PMID:31304320; PMCID:PMC6550188.
Mihalache A, Popovic MM, Guo MZ, et al. Performance of an upgraded artificial intelligence chatbot for ophthalmic knowledge assessment. JAMA Ophthalmol. 2024;142(3):234-241.
Olvera-Barrios A, Heeren TF, Balaskas K, et al. Diagnostic accuracy of diabetic retinopathy grading by an artificial intelligence-enabled algorithm compared with a human standard reference. Diabetologia. 2023;66(5):857-866.
Brown JM, Campbell JP, Beers A, et al. Automated diagnosis of plus disease in retinopathy of prematurity using deep convolutional neural networks. JAMA Ophthalmol. 2018;136(7):803-810.
Poplin R, Varadarajan AV, Blumer K, Liu Y, McConnell MV, Corrado GS, et al. Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning. Nature biomedical engineering. 2018;2(3):158-164. doi:10.1038/s41551-018-0195-0. PMID:31015713.
Rajalakshmi R, Subashini R, Anjana RM, et al. Automated diabetic retinopathy detection in smartphone-based fundus photography using artificial intelligence. Eye. 2018;32(6):1138-1144.
Ting DSW, Cheung CY, Lim G, Tan GSW, Quang ND, Gan A, et al. Development and Validation of a Deep Learning System for Diabetic Retinopathy and Related Eye Diseases Using Retinal Images From Multiethnic Populations With Diabetes. JAMA. 2017;318(22):2211-2223. doi:10.1001/jama.2017.18152. PMID:29234807; PMCID:PMC5820739.