[Interview] 국내 최대 AI 학습 데이터 플랫폼 크라우드웍스 박민우 대표

“AI 시대에도 사람이 핵심”…‘데이터 라벨러’ 모으는 크라우드웍스

김혜빈 인턴기자

426호

2021.12.26 00:14

박민우 크라우드웍스 대표 계명대 컴퓨터공학과 석사, 현 정보통신전략위원회 위원, 전 현대정보기술연구소 엔지니어, 전 메타와이즈 대표이사 / 사진 크라우드웍스 — **박민우** 크라우드웍스 대표
계명대 컴퓨터공학과 석사, 현 정보통신전략위원회 위원, 전 현대정보기술연구소 엔지니어, 전 메타와이즈 대표이사 / 사진 크라우드웍스

“인공지능(AI)은 스스로 학습할 수 없기 때문에 많은 양의 학습 데이터가 필요하다. 수십, 수만 개의 데이터 가공 작업에는 사람이 동원된다. 결국 AI 시대에도 사람이 핵심이다.” 최근 ‘이코노미조선’과 서울 역삼동 크라우드웍스 본사에서 만난 박민우 크라우드웍스 대표는 AI 산업에서 데이터의 중요성을 강조하며 이같이 말했다.

박 대표가 운영하는 크라우드웍스는 데이터 라벨링(Data-labeling) 플랫폼이다. AI가 학습하는 데 필요한 데이터를 수집하고 가공하며 라벨(이름표)을 붙이는 작업을 한다. 박 대표는 2017년 크라우드웍스를 설립했다.

박 대표는 1996년 현대정보기술에 입사, AI 개발 업무를 시작했다. 2000년 AI 검색 엔진 솔루션 기업인 메타와이즈를 차렸으나, 인프라 부족에 사업을 접어야 했다. AI에 한 쪽 분량의 정보를 학습시키는 데 일주일이 걸렸다. 그는 2010년 초중반 클라우드 컴퓨팅이 개발되고, 구글과 아마존 등 글로벌 IT 기업이 본격적으로 AI 산업 투자를 시작할 때, 다시 기회를 봤다. AI 산업을 뒷받침하는 건 데이터라고 생각해 AI 학습 데이터 라벨링으로 사업 방향을 잡았다.

박 대표의 예상은 맞아떨어졌다. 클로바, 기가지니 등 AI 스피커의 등장과 정부의 디지털 뉴딜 정책으로 AI가 먼 미래의 기술이 아닌 일상 속 기술이라는 인식이 확산하면서 데이터 라벨링에 대한 인지도가 높아졌다. 크라우드웍스는 창업 3개월 만에 네이버에서 첫 투자를 받았다. 최근에는 하나금융투자, 키움증권, 이베스트투자증권 등이 참여한 200억원 규모의 프리 IPO(상장 전 투자 유치)를 마쳤다.

직원 1명으로 시작한 크라우드웍스는 120명 규모로 성장했다. 2020년 매출은 73억원을 기록했고, 2021년 11월 기준 누적 작업 데이터가 8000만 건을 돌파했다. 크라우드웍스는 국내 최초로 AI 데이터 라벨링 프로젝트에 일반 대중을 참여시켜 주목받고 있다. 일부 전문가만 AI 데이터 라벨링을 할 수 있다는 인식을 깨고, 특정 분야에 대한 관심과 기초 지식만 있으면 누구나 참여할 수 있도록 한 것이다. 크라우드웍스는 2021년 8월부터 데이터 라벨러의 전문성 강화를 위한 ‘데이터 라벨링 육성 교육 과정’을 진행 중이며, 현재까지 3만 명 넘는 사람이 이수했다. 다음은 일문일답.

데이터 라벨링이 중요한 이유는.
“아직 AI가 스스로 학습하는 건 불가능하다. AI 기술이 실생활에 적용되기 전 데이터 라벨링이 필수적인 이유다. 이때 인간의 가공을 거친 학습 데이터가 필요하다. 예를 들어 고양이 사진에 ‘이렇게 생긴 게 고양이야’라고 이름표를 붙여주는 것이다. 이 작업을 반복하다 보면 AI가 인식하는 사물이 늘어난다.”

분야별 AI 학습 데이터는 어떻게 다른가.
“정말 다양한 분야에서 학습 데이터가 사용되는데, 크게 데이터의 양(quantity)이 중요한 분야, ̒질(quality)̓ 높은 데이터가 요구되는 분야, 데이터의 특수성이 반영된 분야로 나뉜다. 통·번역 같은 경우는 데이터의 양이 중요하다. 특히 글과 달리 말에서는 생략과 축약이 많기 때문에 경우의 수를 최대한 많이 확보하는 게 가장 효과적이다. 여러 지역에서 살아본 경험이 있다면 지역별 방언을 이해할 수 있듯 통·번역 AI는 경험치가 중요하다. 의료 데이터나 자율주행처럼 인간의 생명과 직결된 분야에서는 데이터의 질이 중요하다. 학습 데이터가 99%의 정확도를 보여도 1%의 예외로 인해 쓸모없는 데이터가 된다. 1%의 사고 위험성 때문이다.

마지막으로 법률, 생물, 화학, 물리, 스포츠 등 전문 분야에 대한 각기 다른 AI 서비스가 계속 만들어지고 있다. 각 분야의 데이터를 가공하려면 일정 수준 이상의 지식이 필요하다. 이 경우에는 정확한 답을 도출할 수 있을 정도의 학사 전공 수준이면 누구나 데이터 라벨링에 참여할 수 있다.”

데이터 정확도를 어떻게 높이나.
“데이터의 생명은 정확도와 스피드다. 크라우드웍스는 30만 명 이상의 인력을 한데 모아 대량의 데이터를 빠른 속도로 수집한다. 불특정 다수가 참여하기 때문에 퀄리티 측면에서 문제가 발생할 수 있다. 이를 해결하기 위해 우리는 100% 검수 체제를 도입했다. 데이터 하나를 두고 여러 작업자가 교차로 검수를 하는 것이다. 처음에는 데이터 관리 자체에만 집중했는데 이제는 사람을 관리하게 됐다.”

AI가 널리 쓰이면, 인간의 일자리가 사라지는 건 아닌가.
“AI의 역할은 ‘대체자’가 아닌 ‘조력자’다. 사람이 필요 없는 시대가 올 확률은 낮다. 쉽고 반복적인 일자리는 사라질 수 있어도 전문성이 필요한 일자리는 계속해서 늘어나기 때문이다. 의료 분야에서는 갈수록 AI 활용을 선호한다. 그렇다고 해서 의사 수가 줄어드는 건 아니지 않나. 법률 분야도 마찬가지다. AI가 고객의 의뢰 수준을 판단하는 역할을 돕는다면 시간 낭비를 줄일 수 있다. 오히려 인간은 돈을 더 효과적으로 벌 방법을 터득하는 셈이다.”

국내 600여 개 크라우드소싱 기업 가운데 크라우드웍스만의 경쟁력은.
“시행착오를 통해 얻은 기술력이다. 140개 이상의 특허가 그걸 증명한다. 크라우드웍스는 데이터 라벨링 과정 중 발생할 수 있는 모든 경우의 수에 대한 해결 방안을 특허로 등록했다. 예외 상황과 처리 방식에 대해 일일이 특허로 등록해둔 것이다. 이로써 기술 진입 장벽을 높일 수 있었다.

4년간 쌓은 작업자의 행동 데이터도 경쟁력이다. 데이터 라벨러의 행동 패턴을 분석해 기업과 인력을 매칭해주는 HR테크는 우리가 유일하다. 2021년 긱 이코노미 플랫폼 ‘크라우드잡스’도 출시했다. 세계적으로 정규직이 줄어들고 프리랜서가 늘어나는 현상에 긱 워커(gig worker·조직과 정해진 출퇴근 시간 없이 수입을 올리는 근로자)를 위한 HR 플랫폼이 필요하다고 느꼈다. 비대면으로도 원하는 만큼 일하고 돈을 벌 수 있는 새로운 기회를 열어줬다고 본다. 크라우드웍스가 AI 데이터 플랫폼을 넘어 긱 이코노미 플랫폼이 된 셈이다.”

신종 코로나 바이러스 감염증(코로나19) 영향은 있나.
“비대면 문화와 디지털 대전환의 영향으로 AI 기반 온라인 서비스 개발이 가속화됐다. 누적 회원(라벨러) 수는 2020년 11만 명에서 2021년 11월 기준 30만 명으로 세 배가량 증가해 국내 최대 규모를 기록했다. 데이터 라벨러는 가까운 미래에 하나의 직업으로 자리매김해 국내 AI 산업의 성장을 이끌 것이라고 생각한다.”

앞으로의 계획은.
“해외 현지 라벨러를 모아볼 계획이다. 인도, 베트남, 태국, 중국 등 저임금 국가의 데이터 라벨러를 모아 그들에게 1차 검수를 맡기고 국내 검수자들이 2차 가공하는 시스템도 생각 중이다. 190개국에서 크라우드소싱 인력을 보유한 미국의 아마존 메커니컬 터크(Amazon Mechanical Turk)처럼 글로벌 커뮤니케이션을 확장해나가고 싶다. 기업공개(IPO)도 2022년 하반기로 계획하고 있다. IPO는 기업의 성인식 같은 것이라 생각한다. 성인이 되는 순간 모든 걸 스스로 책임지는 것처럼 상장 기업은 건전성을 포함한 모든 지표들에 대해 책임감을 가져야 한다. 하나씩 차근차근 준비해나가겠다.”

김혜빈 인턴기자