연구팀은 2002년부터 2013년까지 국민건강보험공단 건강검진에 참여한 약 97만 명의 데이터를 분석해 머신러닝 기반 예측 모델을 개발했다. 연구에 부적합한 당뇨병 병력자와 사망자 등을 제외한 약 39만 명의 데이터를 활용, 로지스틱 회귀(Logistic Regression)와 어댑티브 부스팅(AdaBoost) 기법을 결합한 앙상블 구조로 모델을 설계했다. 이 모델은 연령, 공복혈당, 헤모글로빈, 감마글루타밀전이효소(GGT), 체질량지수(BMI) 등의 18개 건강검진 데이터를 학습 변수로 사용했다.
개발된 예측 모델은 72.6%의 예측 정확도를 기록했다. 특히, 일본 JMDC(1200만 명)와 영국 UK Biobank(41만 명)의 데이터를 활용한 외부 검증에서도 높은 예측 정확도를 보였으며, 모델의 국제적 적용 가능성과 신뢰성을 입증했다.

특히 이번 연구에서, 당뇨병 발병 확률이 가장 높은 고위험군의 사망 위험이 저위험군에 비해 현저히 증가하는 것으로 분석됐다. 한국에서는 고위험군의 사망 위험이 저위험군에 비해 약 7.7배, 일본은 3.3배, 영국은 1.7배 더 높았다는 결과가 도출됐다.
이번 연구는 당뇨병 발병의 조기 예측과 예방의 중요성을 강조하는 중요한 연구로 평가된다. 또한 경희대학교 디지털헬스센터는 연구 결과를 바탕으로 누구나 쉽게 당뇨병 발병 위험을 확인할 수 있는 웹사이트를 공개했다. 이를 통해 개인들은 자신이 당뇨병에 걸릴 위험이 얼마나 높은지를 파악하고, 조기에 예방책을 강구할 수 있을 것으로 기대된다.
경희대병원 연구팀은 “이 모델이 당뇨병 예방을 위한 중요한 도구가 될 수 있으며, 더 나아가 개인화된 건강 관리와 질병 예방에 기여할 것”이라고 밝혔다.
임혜정 기자
press@hinews.co.kr