요즘 대화형 인공지능(AI) 서비스, 챗GPT가 등장하면서 전 세계적으로 엄청난 파장을 일으키고 있다. 챗GPT는 미국 스타트업 오픈에이아이(OpenAI)가 작년 12월 1일(이하 현지시각) 공개한 이후 두 달여 만에 글로벌 사용자가 1억 명을 돌파했다. 사용자 1억 명을 돌파한 틱톡의 ‘9개월 기록’을 갈아 치웠다. 챗GPT는 일방적으로 정보를 전달하는 게 아니라 인간과 자연스럽게 대화한다는 점에서 이전 챗봇들과는 다르다. 질문자의 질문 내용을 정확히 파악하고 이에 맞는 대답을 적절히 하기에 실제로 대화하는 느낌을 준다. 사람처럼 대화도 하고 에세이도 쓰고, 심지어 시와 신문 기사도 쓴다. 현재의 챗GPT는 거대 언어 모델인 GPT-4(Generative Pre-trained Transformer version-4)를 사용한다. 딥러닝을 통해 스스로 언어를 생성하고 추론할 능력을 지녔다. 생성형(Generative)이란 문자열, 그림, 음악, 음성 등의 답변을 생성한다는 뜻이며, ‘사전학습(Pre-trained)’이란 GPT의 핵심 언어 모델이 미리 학습을 끝낸 뒤에 필요한 작업에 맞춰서 약간의 수정을 가한 답변을 만든다는 의미다. 미리 학습했다는 의미를 담고 있다. GPT에서 가장 중요한 것은 ‘T’다. 트랜스포머(transformer)의 약자인데, 챗GPT가 세상에 등장할 수 있었던 핵심적인 신경망 모델이다. 이것은 구글이 2017년 논문에서 처음 발표했다. 논문 제목이 ‘Attention Is All You Need(당신에게 필요한 모든 것은 어텐션이다)’이다 보니, 트랜스포머를 ‘어텐션(attention)’ 기술이라고도 부른다. 문장 속의 단어와 같은 순차적인 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망이다. 지금까지 개발된 모델 중 가장 새롭고 강력하고 획기적이다. 이렇듯 큰 업적을 낸 구글이지만, 최근에 큰 실수를 했다. 2월 6일 구글은 새 AI 검색 엔진 ‘바드’ 출시를 공식 발표했고 그 이틀 뒤 프랑스 파리에서 기능을 시연했지만, 쉬운 질문에 오답을 내는 바람에 구글 주가는 이틀간 10% 이상 빠졌다.
GPU 중심의 AI반도체 시장
2016년, 알파고가 바둑에서 이세돌 9단을 이겼을 때 세상은 충격에 빠졌다. 알파고의 승리 이후 AI는 4차 산업혁명을 위한 가장 중요한 기술로 대두됐는데, 이때는 그래픽처리장치(GPU)를 통해 AI 알고리즘을 구현했다. GPU는 중앙처리장치(CPU)와 달리 병렬 처리를 한다는 장점이 있어서 가능했다. AI는 활용 목적에 따라 방대한 데이터를 통해 ‘학습(training)’하는 단계와 학습한 내용을 바탕으로 적합한 결과를 ‘추론(inference)’하는 단계로 구분된다. AI는 수많은 데이터를 학습하고 이를 통해 추론한 결과를 도출한다. 따라서 학습 데이터를 단시간에 받아들이고 처리하기 위해서는 특별한 프로세서 성능의 시스템반도체가 필요하게 된다. 현재는 GPU를 많이 사용하고 있지만, 처음부터 AI용으로 개발된 것이 아니다 보니 AI 연산 외의 부분이 낭비되고, 수많은 데이터를 처리하려면 높은 전력과 빠른 속도가 필수적인데, 전력 소모에서의 비효율적인 부분이 발생했다.
사람의 뇌는 시냅스라는 신경 구조로 연결돼 있다. 여기에서 특정 자극이 주어지면 전기 신호가 모이고, 이를 기반으로 뇌는 정보를 처리하게 된다. 뇌는 감각기관에서 받아들인 자극을 종합·판단해 명령을 내리게 되는데, 우리의 뇌처럼 정보를 학습하고 처리하는 프로세서를 신경망처리장치(NPU)라고 부른다. NPU를 사용할 경우 프로세서와 메모리 간의 데이터 전송을 줄일 수 있어서 에너지 소모를 획기적으로 줄일 수 있다. 그렇지만 GPU 외에 AI반도체 시장은 아직 크게 확대되지는 못한 상황이다.
시장조사업체 딜로이트에 따르면 엔비디아의 AI반도체 시장점유율은 97%다. 아직 대부분의 AI가 GPU를 기반으로 돌아간다는 말이다. 여러 이유가 있겠지만, 가장 큰 이유는 아직 AI반도체를 사용하기 어려워서다. AI반도체는 구동하는 소프트웨어가 얼마나 최적화돼 있는지에 따라 그 성능이 크게 좌우된다. NPU를 기반으로 프로그램을 구동하기 위해서는 NPU를 구동하는 프로그램과 응용 프로그램 사이를 연결하는 인터페이스인 API(Application Programming Interface)로 프로그램을 짜야 한다. 그런데 이 API를 활용하는 것은 쉽지 않다. 결국 NPU를 확대하기 위해서는 보편적으로 사용되는 프로그래밍 언어인 C, C++ 언어나 파이선을 NPU용 API에 맞게 변환해 주는 소프트웨어인 컴파일러(compiler)의 개발이 매우 중요하다. 쉽게 말해서 컴파일러는 프로그램 번역기다. 이 컴파일러 성능은 엔비디아가 최강이다. 실제 엔비디아는 칩 개발 인력보다 소프트웨어 인력의 수가 더 많다. 엔비디아의 쿠다(CUDA·Compute Unified Device Architecture)는 프로그래머들이 병렬처리 알고리즘을 쉽게 만들 수 있도록 개발된 프로그램으로, 현재 대부분의 AI 알고리즘이 쿠다 플랫폼을 기반으로 이뤄졌고, 프로그래머들도 이에 익숙하다. 쿠다는 사용자가 쉽게 프로그램을 작성하고 GPU 위에서 효율적으로 작업을 수행할 수 있도록 해서 AI 관련 커뮤니티에서 널리 사용될 수 있다. 앞으로도 이러한 플랫폼 환경이 더욱 다양하게 제공돼야만 AI반도체의 활용이 점차 더 늘게 될 것이다.
챗GPT로 고성능 AI반도체 시장 꽃핀다
챗GPT 서비스에 사용될 데이터센터 서버는 많은 GPU 반도체를 필요로 한다. 챗GPT는 짧은 시간에 무수히 많은 연산을 해야 하는 거대 언어 모델 기반 생성 AI이기 때문에 이를 운영하려면 엄청난 수량의 고효율 반도체 칩이 있어야 한다. 챗GPT 운영엔 현재 엔비디아의 GPU A100 1만여 개가 사용된다. GPU 수만 개가 방대한 양의 연산을 빠르게 처리하기 위해서는 고전력, 고비용이 들어갈 수밖에 없다. 고성능 AI반도체는 이러한 문제를 해결할 수 있어 제품 개발에 나서는 기업들이 늘어날 전망이다.
일례로, 내년 상반기 5㎚ 공정에서 양산 예정인 국내 스타트업 퓨리오사AI의 2세대 AI반도체는 엔비디아의 A100과 비교해 더 높은 성능으로 챗GPT를 포함한 거대 언어 모델을 고성능으로 지원할 수 있다. 이 칩은 3세대 고대역폭메모리(HBM·High Bandwidth Memory) D램 HBM3를 사용하며, 파이토치(Pytorch)와 텐서플로(Tensorflow)와 같은 소프트웨어 스택을 종합적으로 지원한다. SK하이닉스가 SK텔레콤에서 분사한 AI반도체 전문 기업인 사피온도 챗GPT AI반도체를 양산할 계획이다.
챗GPT 열풍으로 메모리 시장도 활기를 띠고 있다. 고대역폭메모리가 대표적이다. 이 칩은 기존 D램보다 한꺼번에 많은 양의 데이터를 전송할 수 있다. 메모리 반도체에 연산 기능을 더한 PIM(Processing-in-Memory) 반도체도 주목받고 있다. PIM 반도체는 메모리 스스로 연산할 수 있기 때문에 메모리와 연산장치 간 데이터 전송 과정에서 생기는 지연 시간과 전력 손실을 줄일 수 있다는 장점이 있다. 그리고 성능을 더 높인 HBM에 PIM을 통합한 HBM-PIM도 개발되고 있다.
챗GPT는 국내 반도체업계에 희망이 될 수 있다. 시스템반도체 팹리스 도약의 전환점이 될 수도 있다. 이를 위해선 AI반도체 뿐 아니라 컴파일러 같은 소프트웨어 개발 노력도 필요하다. 1등 메모리 반도체 강국이라는 이점을 살려서 HBM, PIM, HBM-PIM까지 모두 석권, 세계 AI반도체 시장을 주도해야 한다.