바이오 분야에서도 빅데이터와 인공지능이 주목받고 있다. 사진 셔터스톡
바이오 분야에서도 빅데이터와 인공지능이 주목받고 있다. 사진 셔터스톡
김선진 플랫바이오 대표 서울대 의학 박사, 전 텍사스 주립대 휴스턴 MD 앤더슨 암센터 암생물학부 암전이 및 임상이행연구센터 교수
김선진 플랫바이오 대표 서울대 의학 박사, 전 텍사스 주립대 휴스턴 MD 앤더슨 암센터 암생물학부 암전이 및 임상이행연구센터 교수

최근 뉴스에 가장 많이 오르내리는 주제는 빅데이터와 인공지능(AI)이다. 도깨비방망이처럼 뚝딱 원하는 물건을 만들어주는 만병통치약으로 홍보되고 있다. 바이오 산업에서도 빅데이터와 AI가 주목받고 있으며, 이를 비즈니스 모델로 내세우는 기업들의 도전이 이어진다. 

바이오 분야의 빅데이터가 중요한 이유는 생물들의 이질성(異質性·heterogeneity) 때문이다. 일란성 쌍생아조차도 타고난 고유한 생물학적 특성이 일치하지 않는다. 이런 생물체의 특성은 현재의 연산법에 기반한 통계 방법으로는 완벽한 분석이나 예측이 불가능하다. 

이 같은 이질성은 질병의 생리적·병리적 특성에도 적용된다. 암 덩어리는 이질성이 있는 각각의 암세포로 이뤄져 있다. 때문에 원발 병소(原發病巢)와 전이(轉移) 병소에 있는 암세포의 생물학적 공통점을 포함하는 최대공약수나 이질적인 특성을 모두 포괄하는 최소공배수를 도출하는 것이 불가능하다. 이를 빅데이터로 만든다면 새로운 도전을 할 수 있는 무대가 열리고, 과학 기술의 진보를 이룰 수 있을지도 모른다. 

좀 덜 방대하고 실생활에 밀접한 사례를 꼽자면, 병원을 방문·입원한 환자들의 각종 증상·병력 등을 포함한 정보와 검사 결과도 바이오 분야의 빅데이터라고 할 수 있다. 기존에는 통계학적인 방법을 통해 특정 질병이 있는 환자군의 다양한 정보를 분석했다. 그리고 이를 바탕으로 질병에 걸리기 쉬운 위험군, 치료에 대한 반응과 예후, 후유증 및 다른 질병과 연관성 등을 확률과 유의성으로 표현한 결과를 도출했다. 이는 학문적·임상적 유효성을 인정받았다. 또 바이오 업계는 이를 통해 인구의 질병 패턴 변화나 경향 그리고 의료 수요의 예측 등을 시도하고 있다. 

그렇다면 빅데이터가 기존 분석 방식을 뛰어넘을 수 있을까. 아직까지 도전은 진행형이다. 현재도 통계학적인 방법으로 특정 분석 대상을 모집단으로부터 골라내는 표본 추출 방식이 있다. 특정 분석 대상인 모집단에서 통계학적 유의성을 갖는 표본 집단을 골라내 분석하면 그 결과는 실제 모집단을 분석하는 것과 다르지 않다. 만일 이러한 표본 추출 방식보다 몇천 배, 몇만 배 이상 크기의 빅데이터를 분석한 결과도 이와 같거나 유사하다면, 빅데이터의 의미가 퇴색될 수밖에 없다. 


빅데이터를 쓸모 있게 만들 AI

그렇다면 빅데이터를 쓸모 있게 만드는 방법은 무엇일까. 우선 대표적인 사례로는 AI가 있다. 인간이 명령어와 분석 자료를 입력하면, 컴퓨터는 그에 따라 연산과 분석을 수행한다. AI는 현재 컴퓨터의 처리 역량을 뛰어넘어 컴퓨터가 인간처럼 스스로 사고, 학습, 자기 계발 등을 할 수 있도록 연구개발하는 컴퓨터공학 및 정보기술의 한 분야다. 즉, 컴퓨터가 인간의 지능적인 행동을 따라 하도록 하는 것이다. 게다가 컴퓨터는 인간의 취약점인 피로나 망각을 경험하지 않기 때문에, 어찌 보면 AI의 발전을 통해 인류 과학의 완벽한 축이 완성될 수 있을지도 모른다.

AI는 그 자체로 존재하고 기능하는 것이 아니라 컴퓨터공학의 다른 분야와 직간접적으로 복잡하게 얽혀 있다. AI라는 용어가 처음 등장한 것은 1956년이지만 당시 컴퓨터공학의 수준으로는 AI를 개발하는 것이 쉽지 않아 난항을 겪었다. 1980년대에도 그때 도입된 신경망이론으로 인간의 두뇌 구조를 분석하고 처리 메커니즘을 규명해 ‘생각하는 컴퓨터’를 만들고자 했으나, 당시 소프트웨어(SW)와 하드웨어(HW)는 빅데이터를 관리할 만한 수준이 아니었다. 결국 1990년대 인터넷이 발전하면서 검색 엔진을 통한 대용량의 데이터를 수집할 수 있게 되기 전까지 AI 발전의 속도는 더뎠다. 빅데이터를 분석하고 스스로 학습하는 방식을 가능하게 한 ‘기계학습(machine learning)’이 등장한 뒤에야 바야흐로 인간의 뇌를 모방한 신경망 구조로 이뤄진 ‘딥러닝’ 알고리즘의 개발이 이뤄졌고, 명실상부한 AI가 탄생했다. 

의생명과학계에선 IBM이 개발한 AI 의료 프로그램 ‘닥터 왓슨’이 2016년부터 국내 병원에 도입되기도 했으나 아직은 기대에 부응하지 못한다는 것이 중론이다. 현재도 방사선학 진단이나 특정 진단에 맞춘 치료법 선택 등에 AI 컴퓨터를 이용하기 위한 알고리즘을 개발하고자 많은 이가 도전하고 있다. 

코로나19 사태를 겪으면서 국내에선 다른 나라보다 유난히 AI를 이용해 코로나19 치료제를 개발하겠다는 발표가 많았다. 하지만 아직 치료제 개발 완성 단계에 도달하지 못했다. 새로운 치료 표적을 제어하기 위해 연구자들은 후보 물질을 찾기도 하고, 기존에 존재하는 물질로 제어할 수 있는 새로운 표적, 즉 다른 질병을 찾아내 ‘리포지셔닝(재도전)’을 시도하기도 한다. 만약 AI를 활용한다면 전통적인 방법과 비교했을 때보다 후보 물질을 발굴하기까지 걸리는 시간이 대폭 단축될 것이라는 기대감, 리포지셔닝의 성공 확률이 올라갈 것이라는 관측이다. 하지만 아직은 낙관적인 전망과는 달리, 실제로 가시적인 결과는 없다. 

그렇다면 빅데이터와 AI를 표방하는 바이오 벤처 기업의 가치를 어떻게 가늠해보는 것이 타당할까. 빅데이터와 AI 모두 현재로선 한계가 명확하다. 데이터를 분석한 결과가 연구나 개발의 끝이 아니라 시작이라는 사실에 주목해야 한다. 빅데이터를 분석해 예측한 질병 패턴의 변화나 새로운 질병 분포의 예측은 그다음에 그것을 어떻게 이용하느냐에 따라 성공 여부가 결정된다. 생명보험 업계의 경우, 이를 보험 가입 대상자 구분과 보험료율 산정, 보상률 결정, 새로운 보험 프로그램을 만들고 시류에 맞지 않는 보험 상품을 없애는 등의 사업 계획에 반영할 수도 있다. 반대로 국가 의료 보험 시스템에서는 보험 수가 산정이나 환자 부담률 계산, 보험공단의 보험 재정 운용과 보험료 결정의 근거로 사용할 수 있다. 하지만 표본 추출법에 의한 기존의 분석 및 예측과 비교할 때 새로운 방식을 활용한 결과물이 정확도에서 큰 차이가 나지 않는다면, 빅데이터의 수집과 분석을 위한 프로그램 개발과 결론 도출에 들어간 비용 및 시간은 정당화될 수 없다. 자본주의의 속성상 퇴출될 수밖에 없는 것이다. 

신약 개발도 마찬가지다. 아무리 좋은 후보 물질을 남들보다 몇 달 혹은 몇 년이나 앞서 발굴한다 해도 이를 과학적으로 다듬고 최적화해 성공적인 임상시험을 통한 상용화에 성공하지 못한다면, 신약 개발은 실패로 결론 지어진다. 즉, 후보 물질이나 새로운 표적 발굴 등 AI 활용 기술은 신약 개발 초기의 한 단계를 담당할 뿐, 그것을 본격 개발하는 것은 인간의 몫이라는 뜻이다. 

AI를 사용하는 기업들이 자체적으로 그 기술을 과학적 개발과 사업에 접목시키지 못한다면, 기업은 그저 데이터나 후보 물질을 만들어 보관하는 창고에 불과할 것이다. 그리고 이는 회사의 역량과 가치를 축소시키는 길로 이어질 것이다. AI 기술을 성공적으로 활용하기 위해서는 자체적인 임상 이행 개발 능력이 얼마나 있는지, 데이터를 사업화할 역량이 있는지가 관건이다. 만일 없다면 얼마나 안정되고 강한 개발 고리를 구성하는 네트워크가 있는지를 주의 깊게 살펴봐야 한다.