음성인식 기술을 기반으로 한 AI 스피커는 집 안에서 간편하게 다양한 기기를 제어할 수 있어 수요가 늘고 있다.
음성인식 기술을 기반으로 한 AI 스피커는 집 안에서 간편하게 다양한 기기를 제어할 수 있어 수요가 늘고 있다.

최근 감염병을 피해 ‘집콕’ 중인 직장인 한소리(가명)씨는 아침에 눈을 뜨자마자 침대에서 인공지능(AI) 스피커에 “TV 켜줘”라고 말한다. TV 전원이 바로 들어온다. 아침 뉴스를 보다가 어제 세탁기에 옷을 돌린다는 것을 깜빡했다는 사실을 깨닫고 그는 “세탁기 돌려줘”라고 스피커에 말한다. 곧 세탁기가 소리를 내며 돌아간다.

소리 산업에는 일방적으로 소리를 내는 기계만 있는 것은 아니다. 반대로 사람과 사람을 둘러싼 사물이 내는 다양한 소리를 듣고 요구 사항을 포착하기도 한다. 소리인식 기계들은 방대한 데이터를 학습한 AI 기술을 바탕으로 다양한 소리를 인식하고, 이를 기반으로 다양한 기능을 수행한다. 사람의 목소리로 나오는 명령어를 인식하는 음성인식 기술을 필두로 폭발음, 유리창 깨지는 소리 등 비언어 소리를 인식하는 기술이 산업 전반에서 사용되고 있다.

시장에서 가장 주목받는 소리인식 기술은 사람의 말소리를 기계가 뜻으로 이해하게 만드는 ‘음성인식 기술’이다. 파파고 같은 번역 소프트웨어부터 차량 내 음성인식 인포테인먼트(음악, 오디오, 주행 정보 등 서비스를 제공하는 시스템)까지 산업에서 활용도가 높다.

음성인식 기술은 여러 사람이 발음한 방대한 오디오 파일을 AI에 계속 분석시켜 ‘딥러닝(심층학습)’시킨 결과물이다. 마치 갓난아기에게 단어 카드 수백 장을 보여주며 같은 발음을 반복하는 과정과 같다. 음성은 소리의 세기, 높낮이, 맵시(음색)에 따라 형태가 달라지는 파장의 ‘그림’을 갖게 된다. AI는 다양한 사람이 발음한 특정 음성의 그림을 비교하면서 유사성을 찾아내는 것이다.

신종 코로나 바이러스 감염증(코로나19)이 전 세계적으로 확산하는 가운데, 시장에서 크게 주목받고 있는 음성인식 제품은 AI 스피커다. AI 스피커는 음성 명령을 인식해 각종 음성 기반 서비스를 제공하는 스마트기기로 ‘스마트홈(가전제품을 비롯한 집 안의 모든 장치를 연결해 제어하는 기술)’의 중추 역할을 한다.

코로나19로 외부 활동이 제한되고 재택근무가 보편화하면서, 집에서 다양한 서비스를 이용하려는 수요와 함께 AI 스피커에 대한 수요도 증가했다. SK텔레콤에 따르면 코로나19가 극심했던 올해 1분기 AI 스피커 ‘누구(NUGU)’의 발화량은 지난해 4분기보다 50% 가까이 증가했다. 과학기술정보통신부에 따르면 올해 3월 기준 이동통신 3사의 누적 AI 스피커 판매 대수는 861만 대로 지난해 3월과 비교해 약 50% 가까이 증가했다.


폭발음, 비명까지 다양한 소리인식

“쾅” 한적한 동네의 어두운 골목에서 큰 폭발음이 3초간 울린다. 폭발음이 들리자마자 인근 전봇대에 달린 폐쇄회로(CC)TV가 소리가 난 골목으로 카메라를 180도 돌려 녹화를 시작한다. 동시에 인근 연계 CCTV가 모두 그 지역을 집중적으로 관제한다.

비언어 소리인 ‘환경음(개 짖는 소리, 기침 소리, 아기 울음, 자동차 경적 등 일상생활에서의 소리)’을 인식하는 기계 모두 음성인식과 같은 원리로 완성된다. 다양한 연령대와 성별, 목소리의 사람들이 발음한 글자를 반복해서 들려주듯이, 폭발음의 경우 다양한 크기, 재질, 개수의 사물들이 폭발하는 소리를 학습시키며 유사한 데이터의 파형 패턴을 바로 찾아내도록 하는 것이다. 화장실 등 CCTV 설치가 불가능한 장소에 설치되어 비명 등을 감지하는 비상벨처럼 보안을 위해 사용되는 경우가 많다.

이상 음을 인식할 수 있는 지능형 CCTV 시장은 가장 빠르게 성장하는 비언어 소리 인식 산업 중 하나다. 시장 조사 업체 IMS리서치에 따르면 2015년 167억달러(약 19조원) 규모에 머물렀던 글로벌 지능형 CCTV 시장은 올해 약 298억달러(약 33조원)에 육박하는 시장으로 성장했다.

비언어 소리인식 산업은 AI가 다양한 분야에서 상용화될 것으로 전망되면서 주목받고 있기도 하다. AI가 돌발 상황에 사람 대신 판단해야 하는 경우가 많아졌기 때문이다.

비언어 소리인식 기술이 큰 두각을 나타낼 것으로 보이는 분야 중 하나는 자율주행차 개발이다. ‘포브스’는 자동차 제조 업계는 자율주행차를 전면 상용화하기 위해 사고가 났음을 인지할 수 있도록 충돌 소리를 인식하고, 갑자기 나타난 구급차나 경찰차를 피할 수 있도록 사이렌 소리를 인식할 수 있는 기술을 개발해야 한다고 10월 18일 보도하기도 했다.


plus point

[Interview] 박용화 카이스트 기계공학과 교수
“누가 기침 소리를 냈는가”…코로나 의심 환자 찾는 ‘기침 인식 카메라’

박용화 카이스트 기계공학과 교수가 기침 인식 카메라를 들고 있다. 사진 이소연 기자
박용화 카이스트 기계공학과 교수가 기침 인식 카메라를 들고 있다. 사진 이소연 기자

“콜록콜록.”

열 명 남짓의 학생이 모인 교실에서 누군가 기침 소리를 내자 화면에서 한 학생의 얼굴에 ‘cough(기침)’라는 글자가 뜬다. 학생의 얼굴에는 등고선이 나타나고, 등고선의 중심이 빨갛게 물든다. 옆에 앉은 학생이 “에취” 재채기 소리를 낸다. 그러나 이번에는 빨간색 원이 생기지 않는다.

기침 소리 하나에 모두가 예민해지는 팬데믹(pandemic·감염병 대유행) 시대, 박용화 카이스트(KAIST) 기계공학과 교수 연구팀은 기침 소리를 인식하는 카메라를 올해 8월 발명했다.

기침 인식 카메라는 성인 손바닥 두 개 정도의 크기로 무게는 약 1.5㎏이다. 지름이 0.5㎝가 안 되는 원 형태의 마이크 108개가 중앙에 흩뿌려진 형태다. 이 카메라는 기침 소리와 단순 재채기를 구분할 수 있을 뿐 아니라, 기침한 사람의 위치까지 콕 짚어내 표시한다.

‘이코노미조선’은 10월 23일 대전 어은동에 있는 카이스트 연구실에서 박 교수를 만났다. 삼성전자에서 연구원으로 13년간 근무하다가 2016년 학계로 온 박 교수는 “기침 소리를 실시간으로 인식하는 딥러닝 기침 기반 알고리즘을 음향인식 카메라에 적용했다”고 말했다.


기침 인식 카메라 발명 계기는.
“코로나19의 대표적인 증상인 열은 열화상 카메라로 찾을 수 있지만, 기침은 사각지대에 있었다. 병원에서 증상이 심한 호흡기 환자들을 효율적으로 모니터링할 수 있길 바란다.”

기침 소리를 구분하는 방법은.
“음성인식 기술을 개발할 때 여러 명이 발음한 음성을 반복 학습하듯이, 어린아이부터 노인까지 다양한 사람의 기침 오디오 데이터 10만 개를 학습시켰다. 기침으로 오인할 수 있는 재채기 역시 유사한분량을 반복 학습시켜 두 소리의 파형을 구분할 수 있게 했다.”

마이크가 108개인 이유는.
“기침 소리가 난 위치를 정밀하게 파악하기 위해서다. 카메라의 마이크는 사람으로 치면 귀다. 개수가 많을수록 정확도가 높아진다. 사람이 소리가 난 위치를 파악하는 원리인, 두 귀에 도달하는 음향의 시차를 이용하는 원리다. 음향의 시차는 음향의 위치의 함수다. 같은 위치에서 난 소리는 마이크의 위치에 따라 도달하는 시간이 다르다. 따라서 하나의 소리가 다양한 위치에 있는 마이크에 도달하기까지 걸린 시차를 종합적으로 사용해서 역으로 계산하면 음원의 위치를 알 수 있다. 주변 잡음을 제거하고, 음원 위치 파악의 정밀도를 고려했을 때 108개가 가장 이상적인 숫자였다.”

앞으로 목표는.
“기침 인식의 정확도가 87%라 이를 더 발전시킬 예정이다. 문이 닫히는 소리나 박수 소리를 종종 기침 소리로 오인하곤 한다. 적용 상황에 맞는 방대한 데이터를 학습시키고, 사물이 아닌 사람에게서 난 소리만을 인식할 수 있도록 얼굴인식 기술도 접목할 예정이다. 의료 기기로 사업화를 진행할 것이다.”

이소연 기자

  • 목록
  • 인쇄
  • 스크랩
  • PDF 다운
ⓒ 조선경제아이 & economychosun.com