[Hinews 하이뉴스] 서울대병원이 흉부 X선만으로 정상·골감소증·골다공증을 분류하는 설명 가능한 인공지능(AI) 모델을 개발했다고 밝혔다. 흉부 X선에는 척추·늑골 등 주요 뼈 구조가 포함돼 있어 별도의 골밀도 검사 없이도 골다공증을 확인할 수 있는 ‘기회 검진’ 가능성을 보여준다. 연구팀은 AI가 실제 어떤 뼈 구조를 근거로 판단하는지까지 정량적으로 검증하는 체계를 마련해 임상 활용 가능성을 높였다.
골다공증은 고령화로 환자가 빠르게 증가하고 있지만, 표준검사인 DXA는 접근성의 한계로 충분히 이뤄지지 못하는 경우가 많다. 반면 대부분의 검진에 포함된 흉부 X선을 활용하면 조기 진단의 폭을 넓힐 수 있다는 장점이 있다. 기존 AI는 예측 근거가 불명확하다는 ‘블랙박스’ 문제가 임상 적용의 장애가 돼 왔다.
박상민 교수 연구팀은 서울대병원 건강증진센터에서 2004~2019년 촬영된 흉부 X선과 DXA 검사 자료(여성 1만4502명)를 활용해 12종의 파운데이션 모델 기반 AI를 비교했다. 일반 이미지 기반 모델(OpenCLIP, DINOv2)과 의료 영상 기반 모델(CheXagent, RAD-DINO)을 조합하고, 선형 검증·부분 미세조정·LoRA 방식 등 세 가지 학습 전략을 적용해 모델을 제작했다.
(왼쪽부터) 박상민 서울대병원 가정의학과 교수, 김재원 서울대 의과학과 연구원 (사진 제공=서울대병원)
AI는 X선에서 뼈 구조를 중심으로 특징을 추출해 T-score에 따라 정상·골감소증·골다공증을 판별한다. 연구팀은 AI의 판단 근거를 수치로 검증하기 위해 특정 뼈를 가린 뒤 성능 변화를 확인하는 ‘차단 분석(Δbone)’과 AI의 주목 영역이 실제 뼈와 일치하는 정도를 계산하는 ‘유의성 지도 방식(IoUbone)’을 도입했다.
그 결과, DINOv2 모델에 LoRA 방식을 적용한 모델이 AUC 0.93으로 가장 안정적인 예측 성능을 보였다. 이 모델은 척추·늑골 등 주요 뼈 구조를 활용하는 비중도 높아 예측력과 설명 가능성의 균형이 가장 잘 갖춰진 것으로 평가됐다. 의료 영상 기반 모델이 반드시 더 우수한 것은 아니며, 높은 정확도가 설명 가능성 향상으로 이어지지 않는다는 점도 확인됐다.
김재원 연구원은 “파운데이션 모델을 의료 영상에 적용할 때는 성능뿐 아니라 판단 근거를 검증하는 다차원적 평가가 필요하다”고 설명했다. 박상민 교수는 “예측력과 투명성을 함께 평가함으로써 임상에서 활용 가능한 AI 모델 선택 기준을 제시했다”고 말했다.