김우창 서울대 산업공학과, 미 프린스턴대 금융공학 박사, SSCI 학술지‘Quantitative Finance’편집장
김우창
서울대 산업공학과, 미 프린스턴대 금융공학 박사, SSCI 학술지‘Quantitative Finance’편집장

신종 코로나 바이러스 감염증(코로나19) 확산세가 무서웠던 지난해 말, 페이스북 메신저 채팅 기반 인공지능(AI) 챗봇(대화 서비스 로봇) ‘이루다’가 서비스를 시작했다. 서비스 개시 후 며칠 내에 사용자 수는 40만 명, 페이스북 팔로어 수는 10만 명을 넘기는 등 반응은 뜨거웠다. 기존에 유사 서비스는 있었지만 이루다가 특히 즉각적인 호응을 받게 된 것은 연일 확진자가 1000명 넘어가고 대부분의 사람이 연말연시 약속이 취소된 가운데 20세 여대생으로 설정된 이루다의 독특한 매력이 맞물린 게 아니었을까. 각종 인터넷 커뮤니티에는 이루다에 대한 찬사가 쏟아져나왔고 2021년 새해엔 이루다가 한국어 기반 챗봇의 새로운 성공 역사를 만들 것이 확실해 보였다.

하지만 사용자가 늘어나면서 딥러닝 기반 챗봇이 가질 수밖에 없는 여러 기술적 문제점이 나타나기 시작했다. 성소수자에 대한 혐오 의견, 외설적 사용 등 기술 외적인 부분에서도 논란이 불붙기 시작했다. 결정적으로 개인정보 유출 및 무단 활용 가능성이 제기됐다. 이루다 개발팀에서 딥러닝 학습을 위해 수집된 연인 간의 성적인 대화, 농담을 캡처해 사내 메신저 단체방에 공유하는 일마저 있었다는 폭로가 나오자 개발사인 스캐터랩은 1월 11일부로 서비스를 중단했다.

3주가량의 짧은 AI생(?)을 살다 갔지만, 이루다가 우리 사회에 던진 질문의 무게는 가볍지 않다. AI에 성적 표현을 하는 것이 윤리적으로 잘못된 것인가. AI에 어느 수준의 정치적 올바름을 요구해야 하는가. 상상조차 못 했던 질문이고, 그래서 답하기 어렵다. 많은 철학적 사유와 치열한 사회적 토론이 필요하다.

하지만 이런 윤리적, 철학적 논란보다 더욱 시급한 것은 개인정보의 상업적 활용 관련 이슈다. 개인정보의 상업적 활용은 우리의 일상과 맞닿아 있기 때문이다. 챗봇에 외설적 표현을 하는 것은 1차적인 피해자가 누군지 모호하지만, 개인정보 침해는 인격을 가진 누군가가 직접적인 피해를 보게 된다.

이루다의 개인정보 침해와 관련한 논란은 1년 전 통과된 데이터 3법(개인정보보호법, 정보통신망법, 신용정보법)에서 새롭게 규정한 개인정보의 활용까지 거슬러 올라간다. 데이터 3법은 기업이 개인정보를 가명처리하면 개인의 동의 없이 활용할 수 있도록 허용한 게 핵심 내용이다. 개인정보는 주민등록번호나 이름 등, 그 자체로 개인을 식별할 수 있는 정보를 의미한다. 가명정보는 ‘개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 추가 정보가 없이는 특정 개인을 알아볼 수 없도록 처리된 것’이다. 예를 들어 ‘30세 홍길동, 월소득 300만원, 서울시 종로구 종로 1가 거주, 이코노미조선 기자’는 개인정보지만, ‘30세 홍OO, 월소득 300만원, 서울시 종로구 거주, 직장인’은 가명정보다.

스캐터랩은 이루다의 인공신경망을 학습시키기 위해 ‘연애의 과학’이라는 자사의 콘텐츠 서비스를 활용했다. ‘연애의 과학’에는 연인 사이의  카카오톡 대화 데이터를 분석해서 보고서를 만들어주는 유료 서비스가 있는데, 회사는 이를 통해 100억 건의 데이터를 모아뒀다고 한다. 스캐터랩은 서비스 약관에 채팅 내용이 신규 서비스를 위해 사용된다고 고지하였고 이 대화를 이루다 학습을 위해 사용했다. 데이터 3법이 개인정보인 카카오톡 대화를 활용할 수 있는 법적 근거다.

하지만 스캐터랩은 개인정보 필터링, 즉 가명처리에 실패했다. “어디 살아?”라는 질문에 아파트 동․호수까지 상세히 답하거나, ‘은행 계좌’라고 입력하자 특정 계좌번호와 은행, 예금주가 출력되는 것을 사용자들이 발견하면서 확인된 사실이다. 심지어 학습에 활용한 카톡 대화 데이터가 그대로 오픈소스 플랫폼인 깃허브(GitHub)에 올라간 사실까지 드러났는데, 실명과 직장명, 지역명 등이 지워지지 않은 상태였다. 실제로 스캐터랩은 “알고리즘이 이름으로 인식하지 못하는 경우, 이름의 형태가 변형되어 있는 경우 인식 못 하는 경우가 있다”며 가명처리가 완벽하지 못했음을 간접적으로 인정한 바 있다. 명백한 실정법 위반이다.


인공지능(AI) 챗봇 ‘이루다’. 사진 페이스북
인공지능(AI) 챗봇 ‘이루다’. 사진 페이스북

이루다 논란의 핵심은 데이터 3법 그 자체

많은 사람이 이루다와 관련한 논란을 특정 기업의 개인정보 관리 실패 정도로 이해한다. 물론 1차적인 책임이 개발사에 있음은 명백하다. 비록 약관에 고지하긴 했지만, 수집된 개인정보의 사용 범위를 모호하게 기술했다는 비판을 피할 수 없다. 완벽하지 못한 가명처리 역시 책임져야 한다. 하지만 기업은 가명처리를 더욱 철저히 하고 정부는 이를 철저히 검증해야 한다는 결론으로 이 사건을 갈음하는 것은 옳지 않다. 본질적인 문제는 그보다 훨씬 깊은 곳에 있다.

이루다 논란의 핵심은 데이터 3법 그 자체다. 텍스트 정보, 특히 대화의 경우 기술적으로 완벽한 가명처리는 실질적으로 불가능하며, 이를 검증하는 것조차 매우 어렵다. 예를 들어보자. ‘홍길동’이라는 사람이 동문모임 후 자기 몫의 회식비를 총무인 친구에게 송금하고 “길동동문회회비보냄”이라는 메시지를 보냈다. 이러한 맥락을 알고 있는 사람이라면 ‘길동’이라는 이름을 지울 수 있을 거다. 하지만 룰 기반의 필터링으로 이를 완벽하게 걸러낼 수 있을까. 나아가 누군가가 완벽하게 가명처리를 했다고 주장했을 때, 이를 어떻게 검증할 수 있을까.

전화번호나 계좌번호같이 특수한 형태가 있는 개인정보는 간단히 처리 가능하다. 하지만 텍스트, 특히 대화에 섞여 있는 개인정보는 직접 눈으로 보고 일일이 지우는 수준이 아니라면 완벽하게 가명처리를 하는 것은 불가능하다. 그나마 어순에 따라 단어의 문법적 기능이 정해지는 영어는 이러한 작업을 그럭저럭해낼 수 있다. 하지만 한국어는 어근에 접사가 결합해 의미가 변화하는 교착어이기에 훨씬 어렵다. 텍스트에서 개인정보를 완벽히 추려내는 AI를 만들면 좋겠지만, 이는 챗봇을 만드는 것보다 훨씬 난도가 높다. 기업이 개인 간의 대화정보를 활용할 때 데이터 3법을 지키는 것도, 이를 국가가 검증하는 것도 기술적으로 불가능하다는 의미다.

이루다는 기업이 지극히 개인적인 연인 간의 농밀한 대화조차 아무런 보호장치 없이 활용할 수 있음을 단적으로 보여줬다. 우리 사회가 데이터 3법을 통해 달성하고자 했던 장밋빛 미래는 쉽게 오는 것이 아님을 증명한 첫 번째 사례다. 이루다 사건의 1차적 책임은 스캐터랩에 있지만, 법이 아직 완벽하게 정비되지 않은 영향도 크다. 그동안 가명정보의 모호성과 검증의 어려움이 지속적으로 제기된 것과 맥을 같이한다.

개발사가 책임을 지는 것은 당연하지만, 거기서 멈춰서는 안 된다. 이번 논란을 통해 개정 가능성을 포함해 데이터 3법을 좀 더 실효성 있게 고치는 사회적 노력이 수반돼야 한다. 그러지 않고는 제2, 제3의 이루다 논란은 필연이다. 또한 스캐터랩은 책임질 것은 책임지되, 더욱더 좋은 기술과 서비스 개발을 멈추지 않기를 바란다. 비록 여러 논란이 있었지만 이루다가 보여준 기술적 성취는 놀랍고 대단하다. 이를 그대로 묻어버리는 건 아주 큰 사회적 낭비다.