연세의대 윤덕용 교수팀, 챗GPT vs 프래밍험·美심장학계 위험점수 비교
영국 바이오뱅크·한국 KoGES 분석 결과, 심혈관질환 위험 예측 성능 유사

▲이미지 출처 : 게티이미지뱅크.

[메디칼업저버 박선혜 기자] 의학 영역에서 활용도를 넓히고 있는 챗GPT가 심혈관질환 위험도 예측할 수 있다는 가능성이 제시됐다.

챗GPT는 진료현장에서 10년 심혈관질환 위험 예측에 전통적으로 사용하는 위험점수와 비교해 유사한 성능을 보이는 것으로 조사됐다. 

이번 분석은 영국 바이오뱅크와 한국인유전체역학조사사업(KoGES) 데이터를 활용한 것으로, 챗GPT의 효능과 신뢰성을 정량적(quantitatively)으로 평가한 첫 연구라는 의미가 있다.

연세의대 윤덕용 교수(의생명시스템정보학교실) 연구팀이 진행한 이번 연구 결과는 셀이 출간하는 국제 학술지 iScience 2월호에 실렸다.

자연어 처리하는 챗GPT

심혈관질환 예측 성능 정량적 평가한 연구 없어

챗GPT는 대규모 언어모델(LLM)의 대표적 예로, 사람과 유사한 문장을 생성하는 초거대 인공지능(AI) 모델이다. 인간이 일상적으로 사용하는 언어인 자연어 처리 기술이 강점으로, 자연어를 학습하고 이해해 답변을 생성한다.

의료 전문가들은 챗GPT의 자연어 처리 기술에 주목한다. 실제 진료현장에서는 구조화된 데이터보단 진료 시 의사가 글로 작성한 환자 증상, 병력 등 비구조화된 데이터가 더 많기 때문이다. 이에 챗GPT는 의료진 업무에 자연스럽게 녹아들 수 있을 것으로 기대를 모은다.

그동안 챗GPT가 심혈관질환 예측에 활용될 수 있을지는 정성적(qualitatively)으로만 평가됐다. 심혈관질환 예방에 관한 질문에 챗GPT 대답이 적절한지 평가한 결과, 84%로 적합하다고 판단됐다(JAMA 2023;329(10):842~844). 이는 챗GPT가 의학적 지식을 갖고 있다는 수준만 확인한 것으로, 심혈관질환 위험 예측 성능을 정량적으로 평가한 연구는 없었다. 

현재 임상에서 전통적으로 사용하는 심혈관질환 위험 예측도구는 영국과 미국 코호트 데이터를 토대로 만들어진 프래밍험 위험점수와 미국심장학회·심장협회(ACC·AHA) 위험점수가 대표적이다. 이들 모델은 특정 항목에 특정 값을 입력해 위험도를 예측한다. 

챗GPT는 자연어를 처리할 수 있어 입력 측면에서 유연하게 임상에 적용할 수 있다. 단, 챗GPT는 확률적 알고리즘을 기반으로 해 일관되지 않고 잘못된 답을 줄 수 있다. 또 챗GPT에 동일한 명령(prompts)을 내려도 응답이 다양하게 나타나, 통찰력 있는 답변을 얻을 수 있지만 정확도가 떨어지거나 잘못된 답변을 받을 수 있다는 한계가 있다.  

이번 연구는 챗GPT가 전통적 심혈관질환 위험 예측도구와 비교해 10년 위험을 예측할 수 있는지 유효성과 신뢰성을 확인하고자 진행됐다. 다양한 집단에서 챗GPT의 성능을 정량적으로 평가하는 데 중점을 뒀다. 

챗GPT, 특정 변수 생략해도 심혈관질환 예측력 비슷

연구에서 프래밍험 위험점수 및 ACC·AHA 위험점수와 챗GPT의 10년 심혈관질환 위험 예측력을 비교하고자 영국 바이오뱅크와 한국인유전체역학조사사업(KoGES) 데이터베이스를 활용했다. 

영국 바이오뱅크에서 2006~2010년 모집된 40~69세 참가자 4만 7468명의 나이, 성별, 당뇨병 여부, 항고혈압제 투약 여부, 콜레스테롤, 혈압, 체중 등 심혈관질환 위험 평가에 필요한 데이터가 분석에 포함됐다. KoGES에서도 영국 바이오뱅크와 유사한 변수를 추출해 총 5718명의 데이터를 활용했다.

심혈관질환 위험을 예측하고자 챗GPT에 환자 변수를 문장 구조로 변환해 입력했다. 챗GPT가 텍스트로 답변주기 보단 심혈관질환 위험 비율로 대답하도록 유도해, 10% 미만이면 저위험군, 10~20%는 중등도 위험군, 20% 초과하면 고위험군으로 분류했다. 

챗GPT에 명령어 입력 및 답변 예시. iScience 2월호에 실린 연세의대 윤덕용 교수 연구팀 논문 발췌.
▲챗GPT에 명령어 입력 및 답변 예시. iScience 2월호에 실린 연세의대 윤덕용 교수 연구팀 논문 발췌.

조사 결과, 챗GPT는 전통적 심혈관질환 위험 예측도구와 유사한 성능을 보였다.

예측 정확도를 판단하는 AUROC는 영국 바이오뱅크에서 프래밍험 위험점수가 0.728, ACC·AHA 위험점수가 0.733이었고 챗GPT는 0.725로 조사됐다. 

KoGES에서도 AUROC는 프래밍험 위험점수 0.675, ACC·AHA 위험점수 0.674, 챗GPT 0.664로 비슷한 예측 정확도를 보였다. 챗GPT와 프래밍험 위험점수 그리고 ACC·AHA 위험점수 간 통계적으로 유의한 차이는 발견되지 않았다.

이어 특정 정보를 얻을 수 없는 경우 챗GPT의 적응력을 평가하고자 영국 바이오뱅크 코호트에서 의도적으로 특정 변수를 생략해 입력하는 추가 연구를 시행했다. 그 결과, 입력할 수 있는 데이터가 부족한 상황에서도 챗GPT의 심혈관질환 위험 예측력을 앞선 결과와 비슷했다.

총콜레스테롤, LDL-콜레스테롤, HDL-콜레스테롤, 중성지방 등 실험실 데이터를 제외해 조사한 AUROC는 챗GPT가 0.722로 생략 전 수치였던 0.725와 비교해 거의 차이가 없었다. 또 수축기/이완기 혈압, 체질량지수(BMI) 등 신체검사 데이터를 생략해도 챗GPT의 AUROC는 0.715로 기본 성능과 비슷했다.

"언어모델 기반 AI 모델, 데이터 형식 상관없이 적용할 수 있어"

▲이미지 출처 : 게티이미지뱅크.
▲이미지 출처 : 게티이미지뱅크.

다양한 인종 데이터를 토대로 한 이번 연구는 챗GPT가 전통적 심혈관질환 위험 예측도구와 비슷한 성능을 보임을 확인했다. 이를 통해 10년 심혈관질환 위험 예측에 챗GPT가 유망할 수 있다는 가능성을 제시한다.

윤 교수는 본지와의 인터뷰에서 "대규모 AI 모델은 다양한 의학지식을 학습해 여러 가지 사건에 대한 예측을 한 번에 효율적으로 할 수 있다"며 "챗GPT가 10년 심혈관질환 위험을 예측하기 위한 지식을 상당히 학습해 이 같은 결과를 얻은 것"이라고 강조했다.

이 같은 연구 결과는 챗GPT 등 AI 모델이 진료현장에 도입될 수 있음을 시사한다.

그는 "현재까지 존재하는 AI 모델은 정형화된 데이터를 입력해야 한다. 가장 큰 문제는 병원 데이터가 표준화되지 않거나 정리되지 않은 경우가 많은 것"이라며 "잘 개발된 AI 알고리즘을 병원에 적용하기 어렵지만 언어모델을 기반으로 하면 데이터 형식은 상관없다. 유연한 AI 모델들을 진료현장에 도입할 수 있을 것"이라고 전망했다.

그러나 챗GPT 활용 시 잘못된 답을 줄 수 있다는 한계가 있어 진료현장에 적용하기 위해서는 연구가 더 필요할 것으로 보인다.  또 모든 최종 판단은 AI 모델이 아닌 의료진의 몫임을 인지해야 한다. 

그는 "수치상 챗GPT가 전통적 심혈관질환 위험 예측도구와 비교해 비슷한 성능을 보였다. 문제는 편향되거나 예측하지 못한 결과가 갑자기 도출될 수 있다는 것으로, 챗GPT를 임상에 바로 적용하려면 검증이 더 필요하다"면서 "그럼에도 이번 연구는 심혈관질환 위험 예측에 챗GPT를 신뢰할 수 있음을 정량적으로 파악했다는 점에서 의미가 있다. 이후 편향이나 추가적인 신뢰도 등 문제를 검증해야 할 것"이라고 제언했다.

관련기사

저작권자 © 메디칼업저버 무단전재 및 재배포 금지