마이크 슈스터 구글 번역 총괄 연구원은 “구글 번역 서비스의 경쟁 상대는 미국 마이크로소프트, 중국 바이두, 한국 네이버”라고 말했다. <사진 : 조선일보 DB>
마이크 슈스터 구글 번역 총괄 연구원은 “구글 번역 서비스의 경쟁 상대는 미국 마이크로소프트, 중국 바이두, 한국 네이버”라고 말했다. <사진 : 조선일보 DB>

인공지능(AI)과 인간이 맞붙는다면 누가 이길까. 바둑에서는 AI가 확실한 우위를 드러냈다. 작년 구글의 AI 알파고는 이세돌 9단을 꺾은 데 이어 올해 중국의 커제 9단까지 완파했다. ‘바둑의 신(神)이 나타났다’는 찬사와 함께 빅데이터를 기반으로 한 AI가 인간의 사고(思考)를 뛰어넘는 시대가 도래했다는 평가가 나왔다. 4차 산업혁명 시대로의 진입을 알리는 신호탄이라는 언론의 보도도 쏟아졌다.

하지만 AI는 번역 분야에서만큼은 아직 인간을 뛰어넘지 못하고 있다. 올해 초 국제통번역협회는 AI 번역기와 인간 번역사들 사이의 ‘5 대 5 번역 대결’을 주최했다. AI 대표로는 구글, 네이버 등이 나섰다. 결과는 번역사들의 ‘싱거운 승리’로 끝났다. 번역사들은 평균 49점을 받아 19.9점에 그친 AI를 압도했다. 구글 번역기는 28점으로 AI 번역기 중 1위를 차지했지만 번역사와는 큰 차이가 있었다.


번역 분야에선 AI가 인간 못 뛰어넘어

구글 번역기에 사용된 AI는 알파고가 바둑을 배울 때 사용한 딥러닝 기술과 같다. 알파고는 이세돌 9단을 꺾을 당시 소름 돋는 실력으로 전 세계를 놀라게 했다. 그랬던 구글의 AI 기술이 번역 분야에서는 왜 인간을 압도하지 못할까. 마이크 슈스터(Mike Schuster) 구글 번역 총괄 연구원은 “언어는 단순한 도구가 아니라 그 이상의 것이기 때문”이라는 대답을 내놓았다. 그러면서 “AI 기술이 아무리 발전해도 인간의 번역을 완전히 대체할 수 없을지도 모른다”는 의외의 말도 했다. 세간의 전망과는 정반대의 평가다.

그는 ‘이코노미조선’과의 인터뷰에서 “인간의 대화는 그저 텍스트 전달에 그치지 않는다”라며 “상황에 따라 달라지는 언어의 의미, 소통 중에 사용하는 표정과 제스처, 문화적 차이 등을 AI가 학습하는 것은 쉽지 않은 일”이라고 했다. 알파고는 바둑을 즐기는 것이 아니라 디지털 신호를 빠르게 계산하고 분석해 결과를 내놓을 뿐이지만, 인간은 대국 속에서 바둑을 즐긴다. AI가 그 즐거움 속에서 나오는 다양한 표정, 뉘앙스와 같은 맥락을 번역해 내는 것은 어렵다는 설명이다.

그는 2006년부터 구글의 번역 서비스(Go‑ogle Translate)팀을 이끌며 신경망 번역과 머신러닝을 적용한 기술 개발을 주도하고 있다. 구글 번역팀은 3명에서 시작해 현재 200명이 넘는 개발자들이 팀을 이루고 있다.


번역 기술에 있어 구글만의 강점이 있나.
“번역의 정확도다. 아직 전문가 번역 실력에는 못 미치지만 구글 번역 서비스는 경쟁사들에 비해 점점 개선되고 있다. 구글은 오랫동안 문장을 단어로 쪼개서 일일이 번역하는 구문 기반 번역(PBMT·Phrase-Based Machine Translation) 기술을 사용했다. 이 기술은 한계가 명확했다. 번역을 0~6점으로 평가할 때 이 기술로는 0.1점 올리는 것도 어려웠다. 하지만 ‘신경망 번역(Neural Machine Translation)’ 기술을 도입한 이후 번역 품질이 대폭 개선됐다.”

신경망 번역 기술이 무엇인가.
“신경망 번역은 AI 기반의 기계학습 알고리즘을 적용한 기술이다. 문장을 통째로 번역해 맥락까지 이해한다. 이용자가 늘수록 데이터가 쌓이기 때문에 번역 실력도 향상된다. 최근 구글 번역기는 매일 10억 개 이상의 문장, 1400억 개 이상의 단어를 번역한다. 103개 언어를 지원해 전체 온라인 사용 인구의 99%를 커버한다. 실사용자 수는 5억명에 달한다. 신경망 번역 기술 도입 이후 ‘한영 번역 점수’는 0.94점이나 올랐다.”

그렇다면 AI가 곧 번역가를 대체하게 되나.
“아무리 기계의 번역 기술이 좋아져도 AI가 인간의 통·번역 활동을 완전히 대체하기는 어렵다. 인간의 대화는 변화무쌍하다. 같은 말도 문화적 차이에 따라, 상황에 따라, 대화 중 표정이나 제스처에 따라 달라진다. 인간이 대화를 할 때 단어나 문장으로만 그 내용과 의미를 전달하는 것이 아니기 때문에 AI 번역기가 인간을 완전히 대체하는 시점은 어쩌면 오지 않을 수도 있다.”

의외의 발언이다.
“언어는 단순히 도구가 아닌 소통을 완성시키는 그 이상의 것이다. 가령 AI가 인간을 상대로 체스나 바둑에서 이길 수는 있다. 하지만 인간과 인간이 대국을 통해 느끼는 즐거움을 AI는 습득하기 어렵다. 인간은 언어를 학습하면 언어 이상의 것을 배우고, 서로 무언가를 나눈다. 인간은 언어를 통해 생각을 정리하고, 언어가 상징하는 문화를 소화한다. AI 번역은 완벽해지려면 갈 길이 멀다.”

그럼에도 번역 서비스에 대한 수요는 점점 늘고 있다.
“물론이다. 인터넷 콘텐츠의 50%는 영어로 돼 있는데, 정작 영어를 구사하는 인구는 20%밖에 되지 않는다. 다른 언어도 마찬가지다. 사람들 사이의 소통을 활성화하기 위해 AI 번역 품질 개선이 필요하다.”

번역의 정확성을 높이기 위해 어떤 노력을 기울이고 있나.
“AI를 학습시켜 번역의 수준을 높이기 위해서는 데이터를 최대한 많이 모아야 한다. 보통 AI에 한 쌍의 언어(가령 영어-한국어) 번역을 훈련시키는 데 1억 개 이상의 학습 사례가 필요하다. 구글은 수집 가능한 모든 데이터를 ‘웹 크롤링(web crawling)’을 통해 적게는 수억 건에서 많게는 수십억 건을 넘게 모아 AI에 학습시키고 있다. 현재 서비스를 제공하는 103개 언어에 모두 높은 수준의 번역 모델을 제공하기는 어려워 계속 연구하고 있고 번역 모델을 고도화하는 데 힘쓰고 있다.”

방대한 데이터를 잘 활용하는 기술의 정교함도 필요할 텐데.
“물론이다. 구글은 번역의 정확성을 담보할 정교한 알고리즘을 구축하는 일에도 집중하고 있다. 방대한 데이터를 수집하더라도 번역의 질이 좋은지 나쁜지를 판단해 실제 번역 결과로 제시할 문장과 그렇지 않은 문장을 골라내는 알고리즘을 만드는 일은 어려운 작업이다. 알고리즘을 정교화하기 위해 엔지니어는 물론 언어 전문가도 투입하고 있다. 또 다른 기술도 있다. 구글은 여러 언어 조합을 하나로 묶는 다중언어 모델(Multilingual model)을 도입했다. 즉 ‘한국어-영어’와 ‘영어-일본어’ 번역을 통해 ‘한국어-일본어’ 번역까지 구현할 수 있다.”

구글이 번역에 있어 라이벌로 생각하는 회사는 어디인가.
“미국의 마이크로소프트, 중국의 바이두가 가장 먼저 떠오른다. 한국의 네이버도 있다. 이들 회사들은 구글 번역과 유사한 서비스를 수준 높게 제공하고 있다.”


※ 이 기사 작성에는 김소희 인턴기자(연세대 경제학과 4년)가 참여했습니다.


▒ 마이크 슈스터(Mike Schuster)
일본 나라첨단과학기술대학원(NAIST) 음성인식학 박사, 구글 음성인식 총괄 연구원


keyword


신경망 번역 인공지능(AI)이 스스로 빅데이터를 학습해 문장 전체를 맥락에 맞게 번역하는 기술. 기존 AI 번역은 단어를 하나하나 해석해 매끄럽지 못했다. 신경망 번역 기술은 방대한 데이터를 통해 전체 문맥을 파악해 실제 생활에서 쓰이는 의미를 최대한 살리는 장점을 갖고 있다.
웹 크롤링(web crawling) 데이터의 최신 상태를 유지하기 위한 데이터 수집 작업이다. 무수히 많은 컴퓨터에 분산 저장돼 있는 문서를 수집해 검색 대상의 색인으로 포함시키는 기술을 뜻한다.