흉부X선에서 파운데이션 모델이 골다공증 판독을 위해 주목한 영역을 시각화한 이미지.[헬스코리아뉴스 / 박원진] 서울대병원이 흉부 X선만으로 정상·골감소증·골다공증을 분류하는 인공지능(AI) 모델을 개발했다. 흉부 X선에는 갈비뼈, 쇄골, 척추 등 골절과 밀접한 뼈 구조가 포함되어 있어 이를 활용하면 별도 골밀도 검사 없이도 골다공증을 조기에 확인할 수 있는 '기회 검진(opportunistic screening)'이 가능하다. 연구팀은 특히 AI가 실제로 어떤 뼈 구조를 근거로 판단하는지를 수치로 검증하는 평가 체계를 마련해, 임상에서도 신뢰할 수 있는 의료 AI의 가능성을 제시했다.
골다공증은 뼈의 양이 줄고 구조가 약해지면서 골절 위험이 높아지는 질환으로, 고령화와 함께 환자가 빠르게 증가하고 있다. 그러나 표준검사인 DXA(골밀도 검사)는 장비 접근성 등의 문제로 충분히 시행되지 못하는 경우가 많다. 반면 흉부 X선은 대부분의 건강검진에서 이미 촬영되므로, 이를 활용해 골다공증 여부를 함께 평가할 수 있다면 조기 진단의 새로운 대안이 될 수 있다. 다만 지금까지의 AI 모델은 예측 과정이 명확하게 설명되지 않는 '블랙박스' 문제 때문에 임상 적용에 어려움이 있었다.
서울대병원 가정의학과 박상민 교수팀(김재원 연구원)은 서울대병원 건강증진센터에서 2004~2019년 동안 흉부 X선과 DXA 검사를 모두 받은 여성 1만 4502명의 데이터를 분석해 다양한 파운데이션 기반 AI 모델의 예측 성능과 설명 가능성을 비교한 연구 결과를 28일 발표했다.
(왼쪽부터) 서울대병원 가정의학과 박상민 교수, 서울대 의과학과 김재원 연구원연구팀은 먼저, 다양한 이미지에서 사전 학습된 파운데이션 모델(Foundation Model)을 의료 영상 분석에 적용했다. 파운데이션 모델은 대규모 데이터로 학습된 AI 모델로, 이를 의료 영상에 맞게 미세 조정하면 제한된 의료 데이터로도 높은 성능을 낼 수 있다. 연구에는 일반 이미지로 학습된 모델(OpenCLIP, DINOv2)과 의료 영상으로 학습된 모델(CheXagent, RAD-DINO) 등 네 가지 모델을 사용했다. 그리고 ▲마지막 분류 단계만 새로 학습하는 '선형 검증' ▲모델의 일부 레이어만 재학습하는 '부분 미세조정 방식' ▲저차원 행렬을 추가하는 'LoRA 방식' 등 세 가지 방법을 적용해 총 12개의 AI 모델을 만들었다.
AI는 입력된 흉부 X선에서 척추와 늑골 같은 뼈 구조를 중심으로 특징을 추출하고, 이를 기존에 학습된 패턴과 비교해 정상(T-score ≥ -1.0), 골감소증(-2.5 < T-score < -1.0), 골다공증(T-score ≤ -2.5) 중 어떤 상태와 가장 유사한지를 판단한다.
연구팀은 여기에 더해 AI가 실제로 어떤 뼈를 근거로 삼아 판단하는지까지 확인할 수 있도록 '설명 가능성' 평가 체계를 설계했다. 뼈를 모두 가린 상태에서 특정 뼈 부위를 추가해 성능이 얼마나 향상하는지 확인하는 '차단 분석 방식(Δbone)'과 Grad-CAM으로 나타난 AI의 주목 영역이 실제 뼈 위치와 얼마나 일치하는지를 계산하는 '유의성 지도 방식(IoUbone)'을 통해, AI가 임상적으로 중요한 뼈 구조를 근거로 판단하는지를 정량적으로 검증했다.
파운데이션 모델별 예측 성능 지표그 결과, DINOv2 모델에 LoRA 방식을 적용한 모델이 AUC 0.93(95% CI 0.92–0.94)로 가장 높은 예측 성능을 보였다. 이 모델은 뼈 구조 활용도가 가장 높고, 주목 영역의 타당성에서도 우수해, 예측력과 설명 가능성이 균형 있게 확보된 최적 모델로 평가됐다.
의료 영상 기반 모델이 항상 더 우수한 것은 아니며, 예측 성능이 높다고 해서 설명 가능성까지 함께 향상되는 것은 아니라는 점도 확인됐다. 이는 의료 AI가 실제 임상에서 활용되기 위해서는 정확도와 함께 '왜 그렇게 판단했는지'에 대한 근거 검증이 필수적임을 보여준다.
제1저자인 김재원 연구원(서울대 의과학과)은 "파운데이션 모델을 의료 영상에 적용할 때는 높은 성능만으로는 충분하지 않고, 실제 의료 현장에서 신뢰받기 위한 다차원적 평가 체계가 필요하다"며 "이번 연구가 그 기준을 제시했다는 점에서 의미가 크다"고 설명했다.
교신저자인 박상민 교수(가정의학과)는 "예측 정확도뿐 아니라 AI의 판단 근거를 투명하게 설명할 수 있는지를 함께 평가함으로써, 파운데이션 모델을 어떻게 선택하고 활용해야 하는지에 대한 방향성을 제시했다는 점에서 큰 의의가 있다"고 강조했다.
이번 연구 결과는 골다공증 및 기타 대사성 골질환 분야의 국제 학술지 'Osteoporosis International' 최근호에 게재됐다.