사진 셔터스톡
사진 셔터스톡

10월 10일 국회 문화체육관광위원회 국정감사장, 인공지능(AI)이 이야깃거리가 됐다. 이상헌 더불어민주당 의원이 영상을 띄웠다. 김광석의 생전 모습에 유인촌 문화체육부관광부 장관의 얼굴을 합성하고, AI가 학습한 유 장관의 목소리가 ‘서른 즈음에’를 부르는 영상이었다. 배우로 오랫동안 활동해온 유 장관이니만큼 데이터는 풍부하고, 학습을 통한 재현도 쉬웠다. 만약 누군가 유튜브에 올렸다면 실제 유 장관이 불렀던 곡으로 착각하기 좋았다. AI와 음악의 현주소가 정치의 현장에 생생하게 데뷔하는 순간이었다.

AI와 음악의 만남은 두 갈래로 흘러왔다. 하나는 창작, 하나는 목소리다. 음악은 음표와 리듬 그리고 사운드 텍스처로 이뤄지는 데이터 덩어리다. 자연에 존재하는 수많은 진동의 데이터에서 인간의 육체와 정서를 자극하는 진동을 찾아내고 규칙화·규격화한 것이 음악의 역사다. AI는 그 규칙과 규격을 바탕으로 음악의 창작에 도전해 왔다. 100여 년 동안 리코딩으로 남겨진 수많은 가수의 목소리를 분석해 기존 가수의 목소리를 모방하거나 새로운 목소리를 만들었다. 디지털이 세상을 지배하기 시작한 2000년대부터 이어져 온 시도다. 재미 또는 신기함의 영역에만 있던 이 시도들이 현실에서 진지하게 논의돼 온 건 2010년대 후반이다. 기술 발전으로 AI 음악의 완성도가 높아지면서 AI로 만든 음악과 사람이 만든 음악의 구분이 어려워지기 시작했다. AI로 재현한 기존 가수의 목소리도 그렇다. 유사를 넘어 동일의 영역에 들어섰다. 올해 초 하이브는 김광석의 목소리를 AI로 재현한 바 있는 슈퍼톤을 450억원에 인수했다. AI의 현 위치를 보여준다.

김작가
대중음악평론가, 일일공일팔 컨텐츠본부장, 한국 대중
음악상 선정위원, MBC ‘나는 
가수다’, EBS ‘스페이스 공감’기획 및 자문위원
김작가 대중음악평론가, 일일공일팔 컨텐츠본부장, 한국 대중 음악상 선정위원, MBC ‘나는 가수다’, EBS ‘스페이스 공감’기획 및 자문위원

AI로 만든 음악, 저작권법 보호 아직은

기술은 현실을 확장한다. 자본은 상용화라는 이름으로 확장된 현실에 건물을 올린다. 법은 마지막에 등장해 등기를 뗀다. 유튜브로 상징되는 새로운 플랫폼에서 AI로 만든 음악들이 수익을 올리고, 창작에 유용한 도움을 주는 프로그램도 속속 나온다. 법이 나설 차례다. 쟁점은 두 가지다. 첫째, AI로 만든 음악은 저작권법으로 보호될 수 있는가. 답부터 말하자면 아니다. 적어도 아직은.

저작권법의 탄생은 17세기 영국이다. 기술과 환경 변화에 따라 내용은 수 세기 동안 끊임없이 변해 왔다. 확고히 지켜져 온 원칙도 있다. 저작물, 또는 창작물의 소유자는 인간이라는 것. 한국의 저작권법은 저작물의 정의를 ‘인간의 사상 또는 감정을 표현한 창작물’로 규정한다. 국제적으로도 마찬가지다. 지난 3월 미국 특허청은 AI로 만든 그래픽 노블에 대해 의미 있는 입장을 냈다. AI를 활용해 이 책을 출간한 저자에게 전체 구성에 대한 저작권을 인정했지만, AI로 생성한 그림에 대해서는 그러지 않았다. 프롬프트(입력값)가 이미지 생성에 영향을 미칠 수는 있어도 특정한 결과를 지시하는 것이 아니므로 작품을 예측할 수 없다는 이유다. 역으로 아직 인간의 역할과 AI의 역할이 구분되고 있음을 의미하기도 한다. AI는 수단이자 도구일 뿐, 창작의 주체는 여전히 인간이라는 얘기다. 하지만 기술적 특이점이 온다면. 즉, 인간의 명령 없이 AI가 스스로 창작물을 내놓는 단계에 이른다면. 그때도 법은 현재와 같은 기준을 적용할 수 있을까. 아니, 법이 고민하는 동안 윤리와 철학은 얼마나 요동치고 있을까. ‘창의하는 인간’에 대한 정의가 바뀔 수도 있을 테니 말이다.

AI로 재현 목소리, 저작권 적용 현재는 불가능 

AI로 작곡한 음악이 창작이란 개념의 대전환을 예고한다면, 두 번째 쟁점은 좀 더 명확하다. AI로 재현한 목소리에 저작권은 적용될 수 있을까. 이 또한 현재로서는 불가능하다. 얼굴은 이미 초상권이라는 보호 장치가 있다. 무단 복제 및 사용은 물론, 딥페이크 영상을 규제하는 근거다. 노래와 영상을 통해서 녹음된 목소리는 저작권, 실연권 등으로 보호받는다. 하지만 사람이 실제로 녹음하지 않은 목소리 즉, AI가 재현한 목소리에 대해선 이제 막 논의 시작 단계로 저작권이 없다. 이유는 간단하다. AI가 실제 목소리와 구분 짓기 힘든 수준까지 온 게 얼마 되지 않았고, 본격 상용화도 되지 않았으니까. 그러나 유튜브 등에서 AI로 재현한 목소리로 관심과 수익을 얻는 이들이 등장하기 시작했다. AI 창작 음악보다 발전 속도도, 관심의 트래픽도 빠르다. 뮤지션들의 반응은 갈린다. 드레이크처럼 도둑질이라고 분노하는 측이 있는가 하면 수익을 나누는 전제하에 자신의 목소리를 제공하겠다는 그라임스 같은 이들도 있다.

이 쟁점이 명확한 이유는 권리의 주체가 명확하기 때문이다. AI로 목소리를 재생하기 위해서는 학습이 필요하다. A라는 가수가 음원, 방송, 영상 등을 통해 녹음한 목소리가 대상이 된다. 따라서 학습-생성 모델 AI를 둘러싼 핵심적 이슈인 ‘학습’에 대한 저작권이 인정된다면 목소리 또한 적용된다. 혹은 초상권과 마찬가지로 음성권이라는 새로운 법적 개념을 만드는 것도 생각해 볼 수 있다. 철학과 윤리가 나설 필요성이 덜하다. 구글이 발 빠르게 유니버설뮤직과 협상에 들어간 이유다. 과거 애플이 아이튠즈를 통해 디지털 음원을 시장화했듯, 유튜브를 AI 유튜버들과 실제 뮤지션들의 ‘협업’ 플랫폼으로 정착시키려는 시도라는 얘기다.

AI 목소리가 산업의 틀에 들어올 때

우리는 알고 있다. 어떤 기술이 등장하고 혁신적 상용화가 이뤄지고 난 후, 결국 모든 건 법과 윤리 등에 의해 제도권에 편입된다. AI로 만들거나 재현한 목소리도 결국 음악 산업의 어딘가에 자리 잡을 것이다. 이후의 음악계가 어떻게 바뀌게 될지는 10년 후 오늘의 서울 날씨를 예측하는 것만큼이나 무의미하다. 다만 지구온난화만큼 분명한 건 있다. 부(富)의 쏠림이다. 미국 경제학자 앨런 크루거가 음악 산업에 대해 쓴 ‘로코노믹스’에 따르면, ‘음반, 다운로드, 스트리밍’순으로 산업이 바뀌면서 음악계의 빈익빈 부익부는 심화해 왔다. 더 많은 사람이 더 쉽게 음악을 접할수록 특정 슈퍼스타 집단이 더 많은 돈을 벌고 있다.

AI로 재현한 목소리가 산업의 틀에 들어온다면 이 흐름은 어떻게 될까. 대중에게 익숙한 목소리 주인공은 더 많은 수익 창출의 기회를 얻게 될 것이다. 생각해 보라. 같은 값을 지불해야 한다면, 유명 가수의 목소리를 자신의 노래에 입힐 작곡가, 프로듀서가 많을까. 인지도가 거의 없는 가수의 목소리를 활용할 이들이 많을까. 길게 생각할 질문이 아니다. 게다가 이미 세상을 떠났거나 젊은 시절 목소리를 잃어버린 레전드 아티스트들의 목소리라면 더더욱 돈이 된다. 그들의 음원을 소유하고 있는 대형 음반사, AI 음악 발표의 장이 될 거대 플랫폼, 기술을 서비스할 빅테크(대형 정보기술 기업)들에는 분명한 기회의 땅이다. 반면 음반에서 음원, 스트리밍을 거치면서 휩쓸려 나간 이들처럼, AI 앞에서 무력감을 느낄 이들에게 새로운 시장 질서는 스카이넷이 지배하는 ‘터미네이터’ 세계관과 다르지 않을 것이다. 이제껏 그랬고 앞으로도 마찬가지리라.