AI신약융합연구원 표준희 부원장, 연합학습 모델 적용 중요성 강조
"기업 간 재산권, 보안 문제 해결하고 고품질 데이터 얻을 수 있어"

표준희 AI신약융합연구원 부원장은 6일 제약바이오협회 프레스세미나에서 'AI 신약개발에서의 연합학습 적용'에 대해 설명했다. 

[메디칼업저버 배다현 기자] "AI 신약개발은 고품질의 데이터를 공급할 수 있는 공급자의 역할이 가장 크다. 그러나 각각의 제약기업들이 가지고 있는 데이터들은 모두 조각나있다. 현재로써 이를 해결할 수 있는 가장 가능성이 높은 방법은 연합학습 기반의 협업 모델이다"

표준희 AI신약융합연구원 부원장은 6일 제약바이오협회 프레스세미나에서 이 같은 내용을 강조했다. 

최근 AI 기술이 급속도로 발전하면서 신약개발에 이를 적극적으로 도입해 효율성을 높이기 위한 노력들이 이어지고 있다. 

멀티모달 학습, 자연어처리, 컴퓨터비전과 패턴인식, 설명 가능한 AI, 생성형 AI 등 다양한 AI 기술을 신약개발에 접목하는 것이 가능해지면서 이러한 기술이 약물 개발의 중요 도구로 사용되고 있다. 

이러한 흐름에 따라 글로벌 AI 신약개발 시장도 급속도로 성장하고 있다. 시장조사기관 마켓스앤드마켓스 리서치에 따르면 글로벌 AI 신약개발 시장 규모는 2023년 8억 8800만 달러에서 2027년 40억 300만 달러까지 연평균 45.7% 성장할 것으로 예상됐다. 

표준희 부원장은 "아스트라제네카, 로슈, 노바타스 등 글로벌 빅파마는 AI 기술에 기반해 다양한 파트너십을 맺고 있으며, 7~8년 전부터 AI 기술과 데이터 플랫폼에 투자해왔다"며 "그 결과 최소 1~2년의 신약개발 기간을 단축할 수 있다고 이야기하고 있다"고 말했다. 

표 부원장의 설명에 따르면 AI 신약개발 생태계에는 신약개발 주체이자 기술 수요자인 제약기업과, AI 개발자, 플랫폼 등 인프라 제공자, 데이터 공급자가 모두 포함된다. 이러한 AI신약개발 생태계의 모든 구성원이 협업해야만 신약개발이 가능하다. 

그는 "AI 신약개발의 흐름에 올라타 유의미한 결과를 만들기 위해서는 국내 AI 신약개발 생태계 구성원들의 역량 제고 및 연계 강화를 위한 방안이 필요하다"고 강조했다. 

AI 신약개발에 있어 가장 중요한 논의 중 하나는 양질의 데이터를 어떻게 확보할 것인가다. 표 부원장은 다양한 생태계 구성원의 노력이 중요하나 고품질 데이터를 공급할 수 있는 공급자의 역할이 가장 크다고 설명했다.

올해 노벨상 수상자인 데이비드 베이커 역시 "AI는 매우 높은 수준의 고품질 데이터를 필요로 한다"며 "그러나 그런 좋은 데이터는 매우 드물다"고 말하기도 했다. 

표 부원장은 "고품질 데이터에 대한 요구가 점점 커지고 있다"며 "현재 공공데이터를 활용해 모델을 만들고 분석하고 있지만 더 좋은, 새로운 데이터가 유입돼야만 모델의 성능을 높이고 사용자의 활용도를 높일 수 있다"고 말했다.

문제는 이러한 데이터를 각각의 제약 기업들이 분산해 가지고 있으며, 데이터는 기업의 재산권과 연결돼있기 때문에 외부와 공유가 어렵다는 점이다. 데이터는 경제적 이슈뿐 아니라 프라이버시와 보안 문제에 있어서도 자유롭지 않기 때문에 공유가 쉽지 않다.  

표 부원장은 현재로서 이러한 문제를 해결할 수 있는 가장 가능성이 높은 방법은 '연합학습 기반의 협업 모델'이라고 설명했다. 

이는 각 기관에서 각자의 데이터로 모델을 학습시켜 해당 모델의 업데이트, 파라미터, 가중치, 그래디언트 등을 중앙 서버로 보내 조합을 하는 방법이다. 

이를 통해 데이터 자체를 공유하지 않고 모델의 파라미터 정보만 암호화해 공유함으로써 데이터의 외부 유출 없이 서로의 모델을 학습시킬 수 있다. 

이러한 모델은 코로나19 유행 시에도 이미 사용됐다. 일부 환자의 이미지와 임상정보를 가지고 각 기관이 함께 협력 연구를 진행하는 데 있어 이러한 연합모델을 통해 성공적인 협업이 가능했다는 것. 

2019~2022년 유럽에서 진행된 EU-MELLODDY 사업에서도 10개 제약사가 이러한 연합학습 모델을 활용해 협업을 진행했다. 협업 모델을 활용해 학습시킨 모델은 각 제약사가 자신의 데이터만 가지고 학습시킨 모델에 비해 성능이 더 좋은 것으로 나타났다. 

해당 제약사들은 과제 이후에도 과제를 통해 만들어진 모델들을 개별적으로 발전시켜 여전히 활용하고 있는 것으로 전해졌다. 

이에 국내에서도 보건복지부와 과기정통부의 지원을 받아 2024~2028년에 걸친 연합학습(Federated Learning) 기반 신약개발 가속화 프로젝트(K-MELLODDY)를 진행하고 있다. 

K-MELLODDY 프로젝트는 연합학습 기반 ADMET(Absorption·Distribution, Metabolism·Excretion·Toxicity, 약물 흡수·분포·대사·배설·독성) 예측 모델인 'FAM(Federated ADMET Model)'을 개발하는 것을 목표로 하는 연구개발사업이다.

EU-MELLODDY를 본따 만들었으나 훨씬 더 다양한 데이터를 포함하고, 더 다양한 예측 결과를 낼 수 있도록 확장한다는 계획이다. 

표 부원장은 "연합학습 참여자들이 많은, 양질의 데이터를 모델에 학습시키도록하기 위해 금전적 인센티브를 포함하는 유무형의 인센티브를 주는 방법을 고민하고 있다"며 "연합학습은 데이터 사용과 관련된 규제를 넘어서 신약개발이나 과학적 발견을 가속화하고, 글로벌 에코시스템을 만들어 협업할 수 있는 모델을 구축할 것으로 기대된다"고 말했다. 

저작권자 © 메디칼업저버 무단전재 및 재배포 금지