활용·보호 범위 절실…제도·사회적 합의 필요

1. 당신의 유전자 정보, 안녕하십니까?

2. DNA 일부 표지만 있으면 가족 정보까지 "술술"

3. 나라마다 기본권리·법·제도 "제각각"

4. "자기통제권 보장 시스템 뒷받침돼야"

전직 화이트 해커였던 정보보안 전문가와 세계 최고의 공과 대학에서 집단 유전학을 공부하고 있는 대학원생, 아무런 연관성이 없어보이는 두 사람이 손을 잡았다.

목표는 유전공학 연구소에 보관돼 있는 유전체 정보를 이용해 개인정보 빼내기. 대학원생은 DNA 염기서열로 유전자 표지를 추출해내는 알고리듬을 만들었고, 전직 해커는 알고리듬을 바탕으로 익명 처리된 인물의 신원을 파악했다. 그리고 그들은 해당 유전자의 소유자뿐 아니라 그들 가족에 대한 개인정보까지 파악하는데 성공했다.

DNA 정보의 익명성 불완전해

영화 속 한 장면을 따온 것 같은 이 이야기는 놀랍게도 허구가 아니다. 미국 화이트헤드연구소에서 유전학자로 일하고 있는 전직 화이트 해커 Yaniv Erlich 박사와 연구 당시 미국 메사추세츠공과대학(MIT) 대학원생이었던 Melissa Gymrek 박사팀은 지난달 Science에 발표한 논문에서 연구 목적으로 기증된 DNA 정보의 익명성이 완전하지 않다는 것을 보여줬다.

Erlich 박사팀은 연구 목적으로 공개된 DNA 데이터베이스와 구글, 가계도 제공 사이트를 이용해 기증자 50명의 신원 및 그 가족관계를 파악하는데 성공했다.

또 확률적으로 미국 백인 남성 10명 중 1명은 DNA 정보 만으로 성(姓)을 알아낼 수 있는 것으로 나타났다. 특히 사회경제적 지위가 높고 가계도 조사가 확실한 중상층 이상의 백인에서 신원이 알려질 가능성이 높았다.

연구팀은 남성의 전체 DNA 염기서열에서 추출해낸 Y 염색체의 단연쇄반복(STR)을 가지고 그 남성의 신원을 파악할 수 있는지 알아보기 위해 먼저 게놈 연구의 선구자인 John Craig Venter 박사의 DNA를 이용해 간단한 실험을 했다.

웹상에 공개돼 있는 Venter 박사의 DNA 염기서열과 나이, 거주지(state)를 바탕으로 분석한 결과 미국인 3억명 중 단 2명으로 압축할 수 있었다. 물론 그 2명 중 한 명은 Venter 박사였다.

이어 두 번째 실험에 들어갔다. 이번에는 다른 정보 없이 DNA 염기서열만 가지고 해당자의 신원을 알아낼 수 있는 확률을 계산했다.

그 결과 가계도 제공 사이트에 DNA 정보가 제출돼 있을 가능성이 높은 부유한 중산층 백인 남성의 경우 대략 12%까지 성을 알아맞힐 수 있는 것으로 확인됐다. 만약 여기에 연령과 거주 지역에 관한 정보를 결합했다면 Venter 박사처럼 해당자의 범위를 크게 좁힐 수 있었을 것으로 추정됐다.


나이·거주지 알면 신원분석 가능

두 번의 성과를 바탕으로 마지막 실험에서는 "1000 유전체 프로젝트"에 참여한 DNA 기증자의 신원을 분석했다. 이 연구는 2008년 영국과 미국, 중국이 합작해 만든 국제 프로젝트로 2010년 완료됐으며, 자료는 웹상에 공개돼 있다.

익명 처리된 DNA 기증자의 신원 파악은 속성 정보를 분석하는데서부터 시작됐다. 연구팀은 국제 HapMap 프로젝트를 통해 알려진 북유럽 및 서유럽 혈통의 남성 32명에서부터 시작했다. 속성정보에서 각 기증자의 당시 연령을 알 수 있었고, 모두 유타주에 살고 있었다는 점도 파악했다. 이로써 찾는 사람의 범위는 1만명으로 줄었다.

다음으로 대상자의 Y 염색체 상 단일염기다형성(SNP)을 분석했다. 이는 부계로만 계승되기때문에 특정 가족의 남자 구성원을 찾는데 용이하다. Erlich 박사는 이 정보를 바탕으로 가계도를 제공하는 유명 무료 웹사이트 두 곳을 뒤졌다.


구글 등 웹사이트에서 쉽게확인

최근 DNA 염기서열 분석 비용이 저렴해지면서 이들 웹사이트에는 4만건에 가까운 데이터가 축적돼 있다.

그 결과 대상자 중 5명이 유타주에 거주하고 있는 모르몬 교도 가족 성씨 8개와 밀접한 연관이 있는 것으로 나타났다. 그리고 구글과 같은 검색엔진과 공공기록, 부음기사 등 온라인 자료를 통해 이들 성씨에 대한 정보를 수집했다.

최종적으로 기증자와 그 가족의 정보를 확인할 수 있었다. 가족 구성원 중에는 같은 프로젝트에 참여한 여성도 있었고, DNA 기증을 하지 않은 사람도 있었다.

Erlich 박사는 이번 연구 결과에 대해 "이렇게 쉽게 개인정보에 접근할 수 있을지 몰랐다"고 말했다. 연구팀은 논문을 게재하기 전 악용을 막기 위해 이 결과를 국립보건원(NIH)에 통보했고, NIH는 즉시 속성정보에서 연령 항목을 삭제했다.

유전자 정보의 익명성을 보증할 수 없다는 보고는 이전에도 여러번 있었다. 2008년 응용유전체학연구소 David Craig 박사팀은 통계학적 방법을 이용해 200명의 DNA 샘플 혼합물에 0.1% 비율로 들어있는 특정인의 DNA 샘플을 식별하는데 성공했다고 PLoS Genetics에 발표했다.

법의학적인 측면에서는 환영할만한 소식이었지만 유전자 정보 프라이버시 측면에서는 노출 위험성이 매우 높은 소식이었다. 이 논문이 발표되자마자 NIH는 인간 DNA 샘플을 광범위하게 공유하겠다는 약속을 철회했다.

연구 목적이 아닌 상황에서 신원이 드러난 사례도 있다. 미국에서 한 15세 소년이 민간업체에서 검사한 자신의 Y 염색체와 DNA 족보, 인터넷 검색으로 익명의 정자 기증자 아버지를 찾아내기도 했다.


연구 측면 혜택 커 차단은 무리

2003년 미국 하버드의대 George M. Church 교수는 분자영상 및 게놈영상센터 신청안에서 기술한 유전자 프라이버시 보호와 관련해 세 가지 질문을 던졌다.

많은 유전자 데이터세트에서 신원이 식별될 가능성이 있다는 사실을 대상자가 적절히 이해하도록 현재 사전 동의서가 잘 구성돼있는가? 연구자들이 그 데이터세트를 특정 인물과 연결지을 수 있도록 분석하지 않겠다고 동의하기만 하면 그 자료가 연구자들에게 공개돼도 충분히 사생활을 보호할 수 있는가? 어떤 연구자가 특정 인물과 연결 짓는 것이 사실상 불가능한 유전자 정보의 종류나 수준이 존재하는가?

지금까지의 사례를 살펴봤을 때 대답은 모두 "아니오"다.

Church 교수는 신청안에서 "정보화로 점점 더 좁아지고 있는 세계에서는 포괄적 유전형 혹은 표현형과 조금이라도 관계가 있는 정보라면 결국 이름과 사회보장번호같은 전통적 식별자 만큼 확실하게 피험자의 신원을 드러낸다"고 말했다.

10년 전 서술된 내용이지만 여전히 우리에게 같은 질문을 던져주고 있다. 유전자 정보 수집이 점차 증가하고 있는 현실에서 어떻게 윤리적, 법적 요건을 충족해 사생활을 보호할 수 있을 것인가?

Church 교수는 "DNA는 결국 궁극의 디지털 식별자였다"면서 "사회보장번호는 9자리 숫자였고, 게놈은 30억 자리 숫자였다"고 말했다.

그렇다고 유전자 정보 공개를 완전히 차단해야 한다고 주장하긴 어렵다. 연구 측면에서의 혜택이 매우 크고 분명하기 때문이다.

Erlich 박사도 이번 논문을 통해 익명화의 헛점을 드러내긴 했지만 "결코 연구 목적의 유전자 정보 공유를 막아선 안된다"고 못 박았다.

다만 일부 표지만으로 지나치게 깊은 개인 정보를 확인할 수 있는 만큼 유전자 정보를 어디까지 어떻게 활용하고 보호할 것인지 제도적 고민과 사회적 합의가 필요하다.
저작권자 © 메디칼업저버 무단전재 및 재배포 금지