전 세계 연구자 90% "연구 재현성 위기 공감"

 
국내외 저명 저널을 보면 흔히 '세계최초 ○○질환 발병기전 규명'이라는 제목을 단 논문들을 접하곤 한다.여기서 궁금증이 생긴다. 수십 년간 획기적인 업적을 이룬 많은 연구결과가 쏟아져 나왔고, 연구 결과대로라면 불가능했던 질환 진단 및 치료에 미약한 성과라도 달성한 보고 정도는 나와야 하는데, 왜 감감무소식인 걸까?이유는 간단하다. 언론에 발표된 연구의 절반 이상은 동물실험에서 사람을 대상으로 한 임상시험으로 아예 넘어가지 못하거나, 임상시험에서 추가 검증에 실패했기 때문이다. 문제는 이들 연구 3분의 2가 연구결과가 잘못된 것으로 판명 나면서 논문이 철회된다는 점이다.이런 일이 벌어지는 이유는 무엇일까? 미국 공영라디오(NPR)의 과학전문 기자 Richard Harris는 최근 펴낸 저서 'Rigor Mortis(사후경직)'를 통해 "대부분 검증, 즉 재현성이 불가능한 연구들이기 때문"이라고 지적했다.연구 재현성(reproducibility)은 연구결과의 진실성과 객관성을 판단하는 중요한 지표 중 하나다.연구 재현성이 없거나 부족한 논문은 연구에 진실성이 없는 것으로 간주해, 연구자 역시 영구제명될 수 있다. 재현할 수 없는 연구는 객관적인 과학적 지식이 뒷받침되지 않는 연구라고 보는 것이다.'재현성 위기'를 맞은 질환 연구 실태를 분석하고 국내외 전문가들의 의견을 통해 해결방안을 모색했다.<창간특집-상>세계최초 타이틀 달더니…절반은 논문 철회<창간특집-하>동물실험한계 극복할 인공생체칩 개발 활기연구가 정당성을 가지려면 그 연구는 재현될 수 있어야 한다. 하지만 현실은 재현성의 위기라는 말이 나올 만큼 심각하다.
 

Harris가 펴낸 저서에 따르면 각종 언론에 보도되는 연구 중 절반은 재현이 불가능하며 비만 또는 정신건강 질환 발병기전 등을 밝혀낸 연구 3분의 2는 잘못된 것으로 판명됐다(Rigor Mortis: 사후경직, 1 edition April 4, 2017). 

전 세계 연구자들도 '연구 재현성'에 위기가 찾아왔다는 데 압도적인 동의표를 던졌다. 2016년 Nature가 전 세계 의과학계에 종사하는 연구자 1576명에게 물었더니, 52%가 "연구의 재현성이 없거나 부족한 논문이 대부분"이라고 했고, 단 7%만 "문제될 것 없다"고 답한 것으로 조사됐다(Nature, 25 May 2016 corrected: 28 July 2016). 

성급한 결론·데이터 조작 등 원인

그렇다면 재현할 수 없는 연구가 지속적으로 증가하는 이유는 무엇일까? 먼저 다소 과장됐거나 성급한 연구 결론을 낸 경우다. 

미국 스탠포드대학 John Ioannidis 교수는 논문을 통해 "일부 연구자 중에는 최초의 가설과 맞지 않을 경우 데이터 중 근거가 될 만한 요소, 즉 이야기가 될 만한 요소를 찾아내 통계적으로 불명확한 부분에 다시 적용하곤 한다"면서 "하지만 추후 다른 연구자들에 의해 재현할 수 없는 연구로 판명 나거나, 잘못된 결과로 논문 자체가 철회된다"고 설명했다(Published: August 30, 2005, Why Most Published Research Findings Are False). 

그 다음으로 데이터 조작 문제다. 2005년 황우석 교수의 맞춤형 인간배아 줄기세포 논문이 조작됐다는 사실이 밝혀진 사건이 대표적이다. 

서울대가 2005년 12월 자체조사위원회를 구성해 약 한 달간 조사 끝에 황 교수가 2005년 5월 발표한 줄기세포 11개는 모두 존재하지 않은 것으로 확인됐다.

아울러 2004년 2월 발표한 논문의 줄기세포 역시 핵이식에 의해 인위적으로 수립된 것이 아닌, 자연적인 단성생식에 의한 산물일 가능성이 있다는 결론이 나면서 파장이 일었다. 

2016년 6월에는 미국 시카고의대 연구진이 관상동맥우회술(CABG) 시술 환자의 장기 생존율 관련 데이터를 허위로 조작해 논문이 철회된 사건도 있다. 

문제가 된 논문은 연방정부로부터 연구비를 지원받아 시행된 연구로, CABG 시술을 받은 환자가 그렇지 않은 이보다 장기생존율이 우수하다는 점을 입증했다.

하지만 정부 조사결과 관련 연구에서 수행된 임상시험 74개가 결과 검증이 충분히 이뤄지지 않았을뿐더러, 일부 데이터는 조작된 것으로 판명나면서 논문 2건 모두 철회됐다. 

연구결과의 유효성을 검증하는 '피어리뷰(peer review)'를 거치지 않고 언론에 공개하는 점도 짚고 넘어가야 한다. 불완전한 결론을 언론 등에 먼저 공개한 후, 나중에 결과가 잘못됐음이 밝혀진 경우도 있다(Nature 523, 27-28, 02 July 2015). 

스웨덴 스톡홀롬대학 Jan Conrad 교수는 Nature에 낸 기고문을 통해 "연구자들 사이에서도 출판에 대한 치열한 경쟁 구도가 형성되면서 피어리뷰를 거치지 않은 불확실한 결과를 공개하는 사례도 급증하고 있다"고 설명했다.

Conrad 교수는 하지만 "이는 잘못된 정보를 대중에 공개하는 것은 물론, 사전 검증을 위한 또 다른 연구비만 낭비하는 부작용만 초래한다"며 의과학의 진보를 막는 일이라고 지적했다(Nature 523, 27-28, 02 July 2015).

연구 재료·장비 선정부터 잘못되기도

애초에 연구자가 연구에 쓰이는 장비나 재료를 잘못 선택한 경우는 없을까?

Harris가 조사한 결과에 따르면, 엉뚱한 암 세포로 실험해 발표한 논문만 7000여 편(2016년 기준) 이상이고, 여기에 낭비된 연구비는 7억달러(한화 약 8032억원)에 달했다. 또 2007년 세포를 이용해 발병 기전을 밝혀낸 연구 가운데 최대 36%가 데이터 오류로 판정 났다.

유방암 연구에 흑색종 세포를 잘못 사용한 사례가 대표적이다. 초기에는 흑색종 세포를 이용해 유방암 발병 기전 등을 밝혀내면서 저명한 저널에 수천 건의 연구 결과가 보고됐지만, 이후 잘못된 연구로 밝혀지면서 큰 논란이 된 바 있다(New york post, May 6, 2017). 

혈액검사를 이용해 난소암 조기 진단의 가능성을 밝혀낸 연구도 문제가 됐는데, 추가검증에서 연구 방법의 오류가 발견됐다.

연구를 진행하는 과정에서 하루는 난소암 진단을 받은 여성의 혈액을 채취해 검사하고, 다음날에는 난소암 진단을 받지 않은 건강한 여성의 혈액을 검사한 것으로 밝혀졌다. 혈액검사로 난소암을 구별할 수 있는지를 알아본 것이 아니라 날짜별로 검사 장비와 대상군에 차이를 둬 연구를 진행한 것이다(New york post, May 6, 2017).

동물실험이 임상시험서 재현될 확률 낮아 

동물실험에서 오는 여러 한계점도 재현성이 불가능한 연구를 만든 원인 중 하나다. 같은 종의 동물이라도 그 종족과 성별에 따라 약물 반응에 대한 민감성이 다양하게 나타난다.

화학물이 몸에 어떻게 흡수되는지, 물질이 어떻게 분포되는지, 어떤 대사작용을 거쳐 분비되는지에 따라 종마다 차이가 난다. 이 각각의 과정이 어떻게 진행되느냐에 따라 화학물과 약물의 안전성 평가에 직접적인 영향을 준다는 게 전문가들 분석이다. 

경희의대 내분비내과 이상열 교수는 "동물실험에서 오는 재현성의 한계도 짚고 넘어가야 한다"면서 "동물의 대사작용 일부 측면은 인간과 달라, 동물실험에서 결과를 도출했다고 해도 다른 동물 또는 사람에서 똑같이 재현된다는 보장은 없다"고 설명했다. 

예상치 못한 변수가 발생한 경우도 동물실험의 한계를 대변한다. 실험쥐의 경우 우리를 사육장 어디에 두느냐에 따라 생리적 차이가 생긴다. 또한 연구자의 성별도 연구에 지대한 영향을 끼친다.

이 외에 △연구 설계의 문제로 실험동물의 숫자가 제한적이거나 △연구자의 편견이 개입된 경우도 있다. 공격성 있는 동물 대신 온순한 동물을 실험에 이용하는 것도 하나의 예가 될 수 있다. 

실제로 신약이 개발되는 과정을 보면 동물실험으로 약효와 부작용을 검토한 후 사람을 대상으로 임상에 들어간다. 하지만 동물실험이 임상시험에서도 재현돼 성공할 확률은 매우 낮다. 

미국식품의약국(FDA)이 2004년 발표한 보고서에 따르면 동물실험에서 효과가 확인된 약물 중 90% 이상은 사람을 대상으로 하는 임상시험을 통과하지 못했다. 

2004년 Stroke에 발표된 연구결과 역시 동물모델에서 개발된 뇌졸중 치료법 700가지 가운데 사람을 대상으로 시험에 적용된 사례는 고작 150가지에 불과했다.

환자의 염증을 줄여주는 약물의 효능 및 안전성을 밝혀낸 150여 개의 결과도 사람을 대상으로 한 시험에서는 치명적인 부작용을 일으켜 결국 개발 실패로 이어졌다(Proc Natl Acad SCI U S A. 2013 Feb 26).

저작권자 © 메디칼업저버 무단전재 및 재배포 금지