국내 ‘의사와 의견 일치율’ 40%대…국가별 특성 반영 안 되면 왓슨 ‘무용지물’

[메디칼업저버 박선재 기자] 국내 의료계를 놀라게 했던 미국 IBM사의 인공지능(AI) '왓슨 포 온콜로지(Watson for Oncology)'의 봄날은 지났다는 평가가 나오고 있다. 

2016년 12월 초 왓슨이 국내 처음으로 길병원에 들어왔을 때 의료계에 그야말로 광풍이 불었다. 당시 인공지능 알파고가 이세돌 구단을 꺾는 열풍과 맞물리면서 왓슨은 병원에 ‘혁명’을 불러올 것처럼 보였다. 왓슨이 의사보다 더 뛰어난 실력을 보이면 어쩌나 하는 부질없는 고민을 하던 시기였다.

국내 최초로 왓슨을 도입한 길병원은 이를 대대적으로 홍보했고, 결국 서울로 향하던 암 환자들의 발길을 돌려 세웠다. 다음 해인 2017년 대구가톨릭대병원, 건양대병원, 조선대병원, 전남대병원 등이 가세했다. 심지어 중앙보훈병원도 왓슨을 병원에 들여놓으면서 왓슨의 전성시대는 계속될 것만 같았다.

“실패한 사업”…IBM, 왓슨 사업팀 구조조정

왓슨의 꽃길은 딱 거기까지였던 것 같다. 중앙보훈병원을 끝으로 2018년에는 왓슨에게 눈길을 준 병원이 한 곳도 없었고, 심지어 여기저기서 왓슨의 ‘추락’을 점치는 뉴스들이 쏟아졌다. 

왓슨을 만든 IBM에서부터 균열이 시작됐다. 지난해 5월 IBM은 왓슨을 실패한 사업으로 규정하고 사업팀을 구조조정했다. 이후 약 700억원을 투입해 종양학 전문 지침(Oncology Expert Advisor)을 개발 중이던 MD앤더슨암센터와도 이별했다. 자세한 내용은 알려지지 않았지만, 왓슨의 데이터에 불만을 가진 MD앤더슨암센터가 먼저 계약을 깬 것으로 알려졌다. 

전문가들은 IBM이 왓슨을 시장에 내놓았을 때 성급했다고 지적한다. 근거기반의 의학적 치료 옵션을 제공하려면 인큐베이터 단계에 더 머물러 있었어야 했다는 것이다.

울산의대 김남국 교수(서울아산병원 융합의학과)는 "IBM이 왓슨의 기술이 부족함에도 효능을 과장한 측면이 분명히 있다. IBM이 초기에 약속했던 것 중 지켜진 것이 하나도 없는 것만 봐도 그렇다"며 "IBM이 불가능한 것을 병원에게 약속한 것 자체가 문제"라고 꼬집었다. 또 "왓슨이 시장에서 더 성장할 수 있을지는 모르겠지만, 병원 시장에서 어려워졌다는 것만은 확실해 보인다"고 잘라 말했다. 

저조한 ‘의사와의 의견 일치율’로 외면하는 의료진

왓슨을 바라보는 의사들의 시선은 곱지 않다. 효능은 떨어지고, 보험 적용도 안 될 것 같고, 의사와의 의견 불일치도 많고, 우리나라 데이터와도 맞지 않는다는 게 전반적인 평가다. 혹평이라고 해도 무방할 정도로 평가가 좋지 않다. 특히 의사와의 의견 일치율이 떨어지는 점은 치명적인 듯 보인다. 

성균관의대 양광모 교수(삼성서울병원 건강의학본부)는 "기대했던 것보다 의사와의 의견 일치율이 떨어진다는 점이 시장에서 외면받는 요인으로 보인다"며 "정확도가 떨어져 의사는 물론 병원에서도 관심이 덜한 것 같다"고 말했다. 

단국의대 최상규 교수(방사선종양학과)도 같은 의견을 제시했다. 최 교수는 "암을 치료하는 교수로서 처음에는 관심이 컸다. 그런데 사용해 본 의사들이 '생각보다 별로'라는 얘기를 종종 했다"며 "의사와의 의견 일치율이 떨어지면 왓슨을 써야 할 이유가 없어지는 것 아닌가"라고 반문했다.

사실 의사와의 의견 일치율은 왓슨의 태생적 한계였다. 애초 IBM은 미국의 암병원인 메모리얼 슬로언 케터링 암센터에서 왓슨과 의료진의 의견 일치율이 대장암 98%, 직장암 96%, 방광암 91%, 난소암 95%, 자궁경부암 100%라고 소개했다. 메모리얼 슬로언 케터링 암센터에서 놀라운 일치율을 보였던 왓슨이 다른 나라에서는 실력을 발휘하지 못했다.

2015년 말 왓슨을 도입한 인도 마니팔병원은 3년간 진료 성적을 공개했다. 마니팔병원 다학제 진료팀이 제시한 치료법을 기준으로 왓슨이 제시한 치료법 중 ‘추천’과 일치하는 비율은 50%, ‘고려’와 일치하는 비율은 28%, ‘비추천’에 해당하는 비율은 17%였다. 직장암은 일치율이 85%였지만 폐암은 17%에 불과했다.

길병원에서의 의견 일치율도 흡족한 수준은 아니었다. 2017년 길병원이 왓슨 도입 1주년을 기념해 발표한 자료를 봐도 의견 일치율은 저조하다.

2016년 12월 센터 개소 이후부터 2017년 11월까지의 환자 총 557명을 대상으로 진행한 결과, 대장암(결장암) 환자 118명을 대상으로 한 의료진과 왓슨의 '강력 추천' 분야 의견 일치율은 55.9%였다. 병원 측은 후향적 연구 48.9%에 비해 7% 높아진 수치라고 밝힌 바 있다. 그런데 4기 위암 환자에 대한 의견 일치율은 40%에 그쳤다. 

건양대병원도 지난 4월 왓슨 도입 1주년을 맞아 유방암 환자 100명에 대한 왓슨 적용 결과를 분석한 결과, 의료진의 의견과 왓슨의 '강력 추천'이 일치한 비율은 48%였다. 
결국 왓슨은 의사와의 의견 일치율의 벽을 넘지 못해 시장에서 사라질 위기에 처했다. 

국내 데이터 입력하려면 추가 비용 발생

왓슨은 의사가 개인적 소견이나 추상적 표현을 적으면 이를 인식하지 못한다. 또 의사가 의학용어나 약어 등을 미리 입력하지 않으면 다른 진단을 하는 등의 문제점도 있다. 이러한 것들이 의견 일치율을 떨어뜨리는 요인인 것이다. 

또 국가별 임상 양상이 차이나는  것을 고려하지 못한다는 점도 문제다. 미국 데이터를 기반으로 한 왓슨의 진단이 우리나라 특성에 맞지 않았던 것이다. 

최상규 교수는 "왓슨은 대상국의 상황을 고려하지 못한다는 단점이 있다. 한국인의 특성을 제대로 반영하지 못하는 것은 물론, 한국어의 독특함도 제대로 읽어내지 못해 의견 일치율이 떨어지는 것 같다"며 "왓슨이 매력적이려면 우리나라 빅데이터가 어느 정도 반영돼야 할 것"이라고 말했다. 

일각에서는 국내 데이터를 왓슨에 추가로 입력하면 문제가 해결되는 것 아니냐고 주장하지만, 이 또한 간단하지 않다. 우리나라 데이터를 입력하려면 추가 비용을 IBM에 내야 하기 때문이다. 이래저래 국내에 들어온 왓슨은 외통수에 걸린 모양새가 되고 말았다. 

비용 비싸고 EMR과도 연동 안 돼

병원 몇 곳에서 운영되는 것에서 멈춰선 왓슨은 처음부터 확산성에 한계가 있었다는 목소리도 있다. 

도입 초기 비의료기기로 분류되면서 시장에서 더 성장할 수 있는 기반을 잡지 못했다. 당시 식품의약품안전처는 왓슨을 처방·진료에 관한 문헌정보를 검색·정리하는 도구로 분류했다. 즉 기존에 나와 있는 논문을 빠르게 읽고 요약·제시하는 역할을 하므로 의료기기에 해당되지 않는다는 것이었다.

또 왓슨에 입력하는 환자 정보 역시 이미 의사가 진단한 것이기 때문에 의료기기로 볼 수 없다고 해석했다. 물론 올해 말 법 개정으로 왓슨이 의료기기로 허가받을 수 있게 됐지만 이미 한발 늦었다는 평가를 받고 있다.

사용할 때 불편함과 고가였던 부분도 한몫했다는 평가다. 양광모 교수는 "왓슨은 병원 EMR(전자의무기록)과 연동되지 않아 불편하다는 얘기가 있다"며 "게다가 치료 비용이 고가라 환자에게 권유하기 쉽지 않다"고 제한점을 말한다. 

왓슨을 도입한 병원들이 왓슨이 안고 있는 여러 문제에 대해 손을 놓고 있던 것은 아니다. 2017년 길병원과 부산대병원 등이 컨소시엄을 만들어 수가 적용이나 병원 간 빅데이터 공유, 플랫폼 구축 등을 위해 노력했지만 이렇다 할 성적을 내놓지는 못했다. 

최 교수는 “우리처럼 보험수가에 민감한 국가에서 왓슨이 잘 쓰일 수 있을지 의문이 든다”고 전했다. 암치료에서 대부분을 차지하는 것이 항암화학요법(chemotherapy)이고 특히 타깃 치료가 주류를 이루는 데 왓슨이 끼어들 여지가 있는지 궁금하다는 것이었다. 

“병원들의 과도한 마케팅” 지적도

병원들이 왓슨의 문제점을 알면서도 병원 홍보에 활용했다는 지적도 나온다. 왓슨을 도입한 병원들이 서울대병원 등 빅5병원에 환자를 빼앗기지 않기 위해 왓슨의 ‘끝’을 알면서도 의도적으로 이용했다는 얘기다.

한 대학병원 교수는 "왓슨을 도입한 병원이 언론에 엄청난 홍보를 했다. 그리고 실제 병원 고위 관계자가 환자를 모으는 데 성공했다고 말한 적이 있다"며 "병원들이 왓슨의 단점과 무관하게 활용했다는 것이 더 맞는 말일 것"이라고 주장했다. 또 "전 세계적으로 왓슨을 이렇게 많이 도입한 나라는 없다. IBM이 우리나라에서 과도한 마케팅을 했다는 점은 분명하다"고 꼬집었다. 

후발주자들 ‘출격’ 준비

왓슨의 시대는 끝났을까? 이 질문에 대부분 전문가의 답은 ‘Yes’다. 의료계에 인공지능을 도입하는 첫 주자로서의 자기 역할은 끝났다는 것이다. 

김남국 교수는 "왓슨이 의료계에서 가려고 했던 방향은 맞다. 왓슨이 의료계 인공지능 영역에서 시장개척을 한 공로는 인정해줘야 한다"며 "어떤 분야든 처음으로 도전하는 회사가 성공하기란 쉽지 않다. 현재 왓슨의 문제점을 보완하고 더 나은 기술을 장착한 회사들이 준비를 마친 것으로 알고 있다. 이를 보면 이미 시장은 다음 턴으로 넘어간 셈"이라고 주장했다. 

현재 의료용 AI를 개발하는 곳은 마이크로소프트, 올림푸스, 메드트로닉, 지멘스 등 외국계 기업이다. 이 중 눈여겨 볼 만한 곳으로 지멘스를 꼽는다. 

의료계 한 인사는 "지멘스가 만들고 있는 의료용 AI를 접해봤는데, 굉장히 인상적이었다"며 "지멘스는 IBM처럼 과도한 언론 플레이나 병원에 마케팅을 위한 접근은 하지 않을 것으로 본다. 오랫동안 의료기기를 해 왔던 곳이라 아주 조심스럽게 접근할 것으로 본다"고 말했다. 

국내에서 왓슨의 시대를 마무리할 의료용 AI 개발도 한창이다. 과학기술정보통신부가 주도하고 국내 대형병원 25곳이 참여하는 '닥터 앤서(Dr. Answer)’가 대표적이다. 

닥터 앤서란 AI 기반의 정밀의료 솔루션으로 다양한 의료 데이터를 연계하고 분석해 개인 특성에 맞는 질병을 예측하고 진단과 치료 방법 등을 지원하는 지능형 소프트웨어(SW)를 말한다. 닥터앤서 개발의 주관기관은 정보통신산업진흥원, 총괄주관병원은 서울아산병원이다.

사업단이 집중하는 질환은 3개 분야(심혈관, 암, 뇌) 8개 질환(심뇌혈관질환, 심장질환, 유방암, 대장암, 전립선암, 치매, 뇌전증, 소아희귀난치성유전질환)이다. 국가에서 비용이 많이 드는 질환이나, SW를 개발했을 때 영향력이 큰 질환 중심으로 움직이고 있다. 기업들이 소프트웨어를 개발하고, 플랫폼은 카카오에서 제공한다. 

관련기사

저작권자 © 메디칼업저버 무단전재 및 재배포 금지