읽을 가치가 있는 논문인가부터 확인하라

읽을 가치가 있는 논문은 제목만 봐도 알 수 있다. "Exploring the cost-effectiveness of Helicobacter pylori screening to prevent gastric cancer in China"와 같이 임상연구의 제목은 연구의 목적, 대상 등 모든 정보를 다 보여줘야 한다. 제목, 즉 연구 목적이 모호한 연구는 더 이상 읽을 가치가 없다. 제목에서 패스했다면 다음은 대상과 방법 등 연구설계가 제대로 되어 있는가를 확인한다. 대상은 대표성, 규모 등 연구 목적을 실현할 수 있는 조건을 가져야 하며 그룹간 균등성이 확보되어 있어야 한다. 이 두 가지에 오류가 없을 경우 리딩의 대상이 된다.

그러나 그 전에 또 한가지 체크할 것이 있다. 저널의 신뢰성, 저자그룹의 신뢰도, 저자의 이해관계를 확인해야 한다. 연구주제와 이해관계가 있는 논문의 경우 출판 치우침의 가능성, 즉 특정대상의 이득을 위해 출판되었을 가능성을 고려해 읽어야 한다. 또한 초록 끝부분에 위치하는 출판 치우침 확인을 위해서는 또한 Trial registration을 확인할 필요가 있다. Trial registration number는 좋은 연구결과만을 발표하는 것을 방지하기 위해 시험전 연구내용을 미국 NIH에 등록시 부여되며, 최근에는 유수저널들이 trial regstration을 실시한 논문만을 게재하고 있다.

정확한 논문 리딩을 위한 체크리스트

1. 연구목표(종료점)와 가설을 구체적으로 기술했는가= 임상현장에서 중요한 것은 검사 결과가 아닌 임상적 결과이기에 임상적 결과가 평가지표로 제시되어 있는지 확인한다.

2. 표본수는 적절한가= α오류(p값), β오류 및 임상적으로 유의하다고 인정하는 차이 등을 제시하고 적정 표본수 산출방법을 적용했는지 확인한다. 우연히 일어난 차를 유의한 차로 판정해 버리는 것을 α오류라고 하며, 통상은 유의수준을 5%로 설정한다. β오류는 p값이 크다고 해서 본래 차가 있는데 그 차를 놓쳐버리고는 귀무가설을 채택하는 잘못을 의미하며, 통산 p값의 4배로 설정한다. 즉, 출현확률이 20% 이상 되어야 연구성적이 연구가설 상황에서 나온 것이라고 판정하겠다는 기준이다. 1-β를 검출력이라고 한다. 표본수는 지나치게 많다고 연구의 타당도가 높아지는 것은 아니다. 오히려 표본수가 많음으로 인한 통계적 유의성이 발생할 수도 있다.

3. 이중맹검이 실시되고 있는가

4. 연구시작 시점에서 각 군의 역학적, 임상적 특징이 기술되어 있는가

5. 대상자의 연령과 질환의 특징을 고려할 때 추적기간은 충분히 긴가

6. 참가자 흐름도를 확인하라= 시험군·대조군에 무작위로 배당된 숫자, 처치를 시행 받은 숫자, 연구를 끝마친 숫자를 확인한다. 탈락된 자들의 비율, 빠진 이유, 남아 있는 자들과의 다른 속성이 제시되어야 한다. 일반적으로 20% 이상의 탈락자가 있으면 타당도 및 정밀도가 감소한다.

7. 관련의 견고성= p값과 신뢰구간을 이용해 통계학적 유의성을 확인한다.
연구 성적이 연구가설 상황(대립가설)을 지지하는 내용이라는 근거만으로 연구가설을 주장하는 것은 논리적 결함을 야기한다. 연구 성적이 동시에 연구가설과 반대되는 상황(귀무가설)을 지지하는 내용일 수도 있기 때문이다. 예를 들어 귀 2개가 심장질환과 관련성이 있다는 연구가설을 확인하기 위해 모든 심장질환자의 귀 숫자를 관측하여 100%에서 귀 2개라는 연구 성적을 얻었다고 하여 귀 2개와 심장질환은 관련성이 있다는 주장이 성립될 수는 없다. 왜냐하면, 귀 2개라는 연구 성적은 심장질환이 없는 사람, 즉 귀무가설 상황과도 동시에 일치하는 내용이기 때문이다. 따라서 연구 성적이 연구가설 상황과 일치하면서, 동시에 귀무가설 상황과는 일치하지 않아야 대립가설 상황을 주장할 수 있다.

여기서 귀무가설의 경우의 수를 p값이라고 부른르고 통상 5% 이내면 연구가설 성립을 인정한다. 다시 말해 p값은 평균을 포함하는 구간을 미리 정하고 임의의 자료 하나를 선택했을 때 구간 밖의 관측치가 될 사건의 확률이다. 연구가설·귀무가설은 정성적 결과로 가설 성립 유무만을 결정한다.

95% 신뢰구간이란 연구 성적의 출현확률이 ▲95%인 모집단 상황의 범위를 뜻한다. 예를 들어 연구 성적은 B, 95% 신뢰구간은 (A-C)라고 한다면, 이는 연구 성적 B는 모집단 A-모집단 C 범위의 거의 모든 상황과 일치하는 내용이라고 해석한다.

연구 성적은 통상 "차이"와 "비" 형태로 나타내는데, 절대위험도의 감소와 같은 "차이" 형태의 연구 성적에서 95% 신뢰구간이 "0"을 포함하고 있으면 "유의한 차이"가 인정되지 않는다는 내용이 되며, 상대위험도(RR), 오즈비(OR)와 같은 "비" 형태의 연구 성적에서는 "1"을 포함하고 있는 경우 유의하지 않다고 해석한다. 신뢰구간의 범위와 유의성의 정도는 상관관계가 없다.

8. 각 군의 중요한 부작용이 기술되어 있는가

9. ITT(Intention-to-treat) 해석이 되고 있는가= 시험 도중 탈락한 자를 처리하는 분석방법은 ITT와 PP(per protocol)로 구분된다. ITT 분석은 탈락자를 분석대상에 포함시키는 방법으로, 탈락자의 결과값은 탈락까지의 증상 개선 등 평가지표의 추세선을 이용해 연구 종료시점의 추정값을 이용한다(그림). ITT 분석의 일종인 LOCF(Last observation carried forward) 분석은 탈락 당시의 값을 분석에 이용하기에 보다 보수적인 분석방법으로 언급된다. 다시 말하면 연구자로서는 가장 결과값이 안 좋게 나올 수 있는 분석방법을 채택한 것이다. ITT 분석은 비순응도 등 실제 상황을 반영하기에 선호되고 있다.

PP 분석은 연구 종료 시까지 참여한 환자만을 분석하기에 연구자 입장에서는 매력적인 방법이다. 그러나 대조군에서 5%, 시험군에서 15%가 탈락했다고 가정 시 RCT의 무작위성을 무너뜨려 신뢰도를 낮추기에 부차적인 결과로 제시되고 있다. 현재 대부분의 연구는 ITT와 PP 분석 결과를 모두 제시하고 있다. 만일 PP 결과만 제시할 경우 뭔가를 숨기고 있을 가능성을 의심해 보아야 한다.


















/그림/중도 탈락자 분석법에 따른 이용 자료

10. 결론을 내릴 때 사고의 비약 오류를 확인하라= 목표에 부합하는 내용을 결과로 제시했는지 체크한다. 한편 통계학적으로 유의차가 있다고 해서 그것이 곧 임상적으로 의미가 있는 것은 아니다. 그렇기에 결과의 중요성 평가 시에는 사건발생률, 상대위험도 감소, 절대위험도 감소, 치료필요수(NNT, Number needed-to-treat), 부작용발생수(NNH, Number needed to harm), 신뢰구간, p값을 확인해야 한다. 모든 결과값이 연구에 표현되어 있지 않을 경우 스스로 계산하여 평가한다.

예를 들어 항고혈압약 투여에 의한 뇌졸중 예방의 무작위비교시험 결과, 시험군에서의 뇌졸중 발생률이 6%, 대조군 발생률이 8.5%라고 하자. 상대위험도 감소는 1-(6/8.5)=29%로 시험군의 사건 발생률이 위약군에 비해 29% 감소했음을 의미한다. 절대위험도 감소는 8.5-6=2.5%로 시험 참여군 100명중 2.5명에서 발생률이 감소했음을 의미한다. 이 경우 2.5%라는 값이 통계적 유의성을 가졌다 할지라도 이 정도의 위험감소를 위해 약물투약을 해야 하는지에 대한 결정은 임상의 개개인이 상황에 따라 직접 판단할 몫이다. NNT는 100명 치료 시 2.5명의 발생을 예방했으므로 100/2.5=40명이다. 40명 치료 시 1명의 발생을 예방할 수 있는 것이다. 일반적으로 NNT가 작을수록 치료효과가 큼을 의미하며, 가치에 대한 평가는 역시 임상의가 직접 해야 한다. NNH는 부작용 발생 빈도의 절대차의 역수로 약제를 몇 명에게 투여시 부작용 발생자 수가 증가하는가를 의미하므로 되도록 많은 것이 바람직하다.
저작권자 © 메디칼업저버 무단전재 및 재배포 금지