챗GPT, 미국·일본 의사면허시험 통과
"전문 지식 대체할 수 없지만, 진단 시 잠재적 보조역할로 유망"

▲이미지 출처 : 게티이미지뱅크.
▲이미지 출처 : 게티이미지뱅크.

[메디칼업저버 박선혜 기자] 전 세계적으로 챗GPT(Chat GPT) 열풍이 뜨겁다. 미국 오픈AI(Open AI)가 개발한 대화형 인공지능(AI) 챗봇인 챗GPT는 지난해 11월 GPT-3.5 버전이 출시된 이후 화제의 중심에 섰다.

챗GPT는 사용자가 대화창에 텍스트를 입력하면 그에 맞게 답변을 줘 사용자와 AI 간 대화가 가능하다. 특히 번역, 논문 작성, 코딩 작업 등 여러 분야의 업무를 수행할 수 있어 똑똑한 비서 역할을 하고 있다.

의료 분야에서도 챗GPT를 주목하고 있다. 질환 진단 및 치료 결정에 도움을 줄 수 있을 뿐만 아니라 임상연구 진행 및 논문 작성에도 활용할 수 있기 때문이다.

챗GPT 답변의 신뢰도와 윤리적·사회적 문제에 대한 우려도 있지만, 챗GPT 열풍은 피할 수 없는 흐름이라는 게 전문가들의 중론이다.

본지는 창간 22주년을 맞아 의료 분야에서 챗GPT가 어떤 역할을 할 수 있을지와 앞으로 나아가야 할 방향을 짚어봤다.

<1> ChatGPT, 미래 의료 이끄는 도구 될까?

<2> 의사면허시험 통과한 챗GPT, 진단에 도움 줄까?

<3> "당신의 건강 관리를 도울 '챗GPT'입니다"

<4> 챗GPT, 의학논문 작성도 척척…그럼에도 한계는?

의료진 편의 대체 수준 도달전문적 판단 활용은 어려워

챗GPT는 실제 각국의 의사 면허시험을 통과해 화제를 모았다. 올해 초 챗GPT가 미국 의사면허시험(USMLE)에서 50% 이상의 정확도를 보이며 시험을 통과했다. 지난 5월에는 일본 의사면허시험에도 합격했다는 소식이 전해졌다.

이에 일각에서는 챗GPT가 주치의 역할을 할 수 있을 것이란 의견이 나온다. 그러나 다른 의료 AI 프로그램처럼 챗GPT 역시 의사를 돕는 보조수단으로 활용될 것으로 전망된다.

의료 현장에서 챗GPT에 기대하는 역할 중 하나가 진단 보조수단이다. 

지난해 12월 챗GPT(GPT-3)를 이용해 치매 검사 시 사진을 설명하는 사람들의 오디오 클립을 분석한 연구 결과가 발표됐다. 알츠하이머병 환자가 종종 자신의 말을 되풀이하거나, 사진을 보여줬을 때 내용을 묘사하지 못하고 모호하게 언급한다는 특징을 고려한 연구다.

그 결과, 챗GPT는 말하는 패턴만으로 80% 정확도로 초기 알츠하이머병 환자를 선별했다. 즉 챗GPT가 일상적 언어와 인지 감소가 있는 알츠하이머병 환자의 미묘한 언어 차이를 구별한 것이다(PLOS Digit Health 2022;1(12):e0000168). 

지난 3월 업그레이드돼 출시된 챗GPT(GPT-4)도 판단이 쉽지 않은 의료 사례에 높은 정확도로 진단을 내릴 수 있는 것으로 조사됐다. 

JAMA 지난달 15일자 온라인판에는 GPT-4의 진단 정확도를 평가한 연구 결과가 레터 형식으로 실렸다. 연구에서는 교육 목적으로 NEJM에 발표된 임상 및 실험실 데이터, 영상 데이터, 조직병리학적 결과 등을 포함해 복잡한 환자 사례인 임상병리학 사례회의(Clinicopathological Case Conferences, CPC) 자료를 이용해 챗GPT 진단 능력을 평가했다. 

총 70개 CPC 자료를 평가한 결과, 챗GPT는 까다로운 사례에 64%의 감별진단 정확도를 보였고, 39%는 최종 CPC 진단과 일치했다. 이는 기존 감별진단에서 활용한 모델 성능보다 더 좋다는 게 연구팀 설명이다.

연구를 진행한 미국 베스 이스라엘 디코니스 메디컬센터 Zahir Kanjee 박사는 "챗봇(챗GPT)은 의료 전문가의 전문 지식을 대체할 수 없지만, 진단 시 잠재적 보조역할로 유망하다"며 "의료진이 복잡한 의료 데이터를 이해하고 진단적 사고를 넓혀야 할 때 챗봇이 도움 될 수 있다. 아직 더 많은 연구가 필요하고 개인정보 보호 문제도 해결해야 하지만, 진단 측면에서 이번 결과는 흥미롭다"고 밝혔다.

American College of Radiology 지난달 21일자 온라인판에는 GPT-3.5와 GPT-4가 유방암 선별검사, 유방 통증 등 중요한 임상표현에 따라 적합한 영상진단장비를 높은 정확도로 판단할 수 있다는 연구 결과가 발표됐다. 이는 1차 의료기관 의료진이 환자를 평가하고 유방암 선별검사 및 통증에 대한 영상검사를 진행할 때 챗GPT가 의사 결정을 도울 수 있음을 시사한다는 게 연구팀 설명이다. 

그러나 챗GPT가 100% 정확도로 질환을 진단하는 것은 아니기에 답변을 맹신하면 안 된다. 챗GPT가 인간 피드백 기반 강화학습(Reinforcement Learning w/ Human Feedback)에 따라 정확도가 점차 개선될지라도 결국 최종 판단은 의료진에게 있다. 

한림의대 허선 교수(기생충학교실)는 대한의사협회지 4월 10일자 온라인판에 게재한 사설을 통해 "챗GPT는 매우 일반적 지식을 제공하는 것은 가능하고 질문 맥락에 맞춰 답하지만, 그 답을 얼마나 신뢰할 수 있느냐는 오로지 전문가 판단에 달려 있다"며 "앞으로 더 많은 훈련 과정을 통해 AI 챗봇의 답변 수준이 조금 더 올라갈 수 있을 것이다. 그러나 이런 도구를 효율적으로 적절히 사용하려면 전문가로서 충분한 지식과 술기를 갖춰야 답변이 타당한 수준을 판단할 수 있을 것"이라고 밝혔다. 

연세의대 윤덕용 교수(의생명시스템정보학교실)는 "챗GPT가 의료진 또는 환자의 단순 편의를 대체할 수 있는 수준에는 도달했다"면서도 "의료진의 전문적 판단이 필요한 영역까지 활용하기에는 아직 한계가 있다"고 조언했다.

저작권자 © 메디칼업저버 무단전재 및 재배포 금지