연세대 의과대학 용인세브란스병원 전경[헬스코리아뉴스 / 박원진] 국내 의과대학 본과생들이 실제 임상 증례 분석에서 인공지능(AI)이 의료진과 비교해 더 높은 판단 정확도를 보일 수 있음을 객관적으로 확인했다.
연세대학교 용인세브란스병원 심장내과 배성아·정신건강의학과 박진영 교수와 연세의대 본과 4학년 정재원·김현재 학생 연구팀은 오픈AI(OpenAI)의 멀티모달 및 추론 AI 모델인 'GPT-4o'와 'o1'의 임상 판단 정확도를 의료진 응답과 비교 분석한 연구 결과를 발표했다.
연구팀은 2011년부터 2024년까지 의료 교육 플랫폼 '메드스케이프(Medscape)'에 공개된 1426건의 임상 증례를 분석했다. 여기에는 환자의 상세 병력과 신체 검사 소견은 물론 엑스레이, CT, MRI 등 총 917건의 의료 영상 데이터가 포함되어 실제 임상 현장의 복잡한 상황을 반영했다.
연세의대 본과 4학년 정재원·김현재 학생, 용인세브란스병원 심장내과 배성아·정신건강의학과 박진영 교수분석 결과, 의료진 응답의 평균 정확도는 85.0%였으나 'GPT-4o'는 88.4%, 최신 추론 모델인 'o1'은 94.3%의 정확도를 기록했다. 특히 'o1' 모델은 진단(92.6%), 질병 특성 파악(97.0%), 검사 계획(92.6%), 치료 방향 설정(94.8%) 등 모든 영역에서 90% 이상의 높은 정확도를 보였으며, 내과·외과·정신과 등 전공 분야에 관계없이 안정적인 성능을 나타냈다.
판단의 일관성 검증에서도 'GPT-4o'는 86.2%, 'o1'은 90.7%의 증례에서 5회 반복 분석 내내 동일하게 정확한 답을 제시해 체계적인 추론 능력을 입증했다.
실제 임상 증례를 바탕으로 AI 모델의 진단, 질병 특성 파악, 검사 계획, 치료 방향 설정 등 임상 판단 정확도를 분석한 결과, AI 모델은 전반적으로 의료진보다 높은 정확도를 보였다. 특히 추론 AI 모델(o1)은 모든 판단 영역에서 90% 이상의 높은 정확도를 일관되게 나타냈다.이번 연구는 교수진의 지도 아래 의대생들이 연구 설계부터 데이터 분석, 논문 작성 전 과정을 주도했다는 점에서 의학교육 측면에서도 큰 의미가 있다. 연구에 참여한 학생들은 "AI가 실제 임상에서 어떻게 활용될 수 있을지 직접 확인한 것이 큰 보람이었다"고 소감을 밝혔다.
배성아·박진영 교수는 "이번 연구는 AI가 의료진의 판단을 대체하기보다, 복잡한 임상 상황에서 의사 결정을 보조하고 안전성을 높이는 도구로 활용될 가능성을 보여준 것"이라고 설명했다.
본 연구 결과는 국제학술지 '메디슨(Medicine (Baltimore))' 2026년 1월 호에 게재됐으며, 연구 데이터와 코드는 오픈소스 플랫폼 '깃허브(GitHub)'를 통해 전 세계 연구자들에게 공개됐다.