지금까지 인공지능(AI) 컴퓨팅의 핵심 목적은 막대한 데이터를 학습시키는 '훈련(training)'에 있었다. 그러나 앞으로는 기업과 소비자의 질문, 프롬프트, 업무 요청을 이해하고 해석해 답변하는 '추론(inference)' 기능이 AI 컴퓨팅 수요의 중심으로 이동할 전망이다.
/사진 셔터스톡
/사진 셔터스톡
질리언 크로선 딜로이트 글로벌 첨단 기술·미디어·통신 산업 리더 - 영국 스트라스클라이드대 정보학
질리언 크로선 딜로이트 글로벌 첨단 기술·미디어·통신 산업 리더 - 영국 스트라스클라이드대 정보학

2026년 생성 AI(Generative AI) 산업은 중대한 전환점을 맞을 가능성이 크다. 지금까지 인공지능(AI) 컴퓨팅의 핵심 목적은 막대한 데이터를 학습시키는 ‘훈련(training)’ 에 있었다. 그러나 앞으로는 기업과 소비자의 질문, 프롬프트, 업무 요청을 이해하고 해석해 답변하는 ‘추론(inference)’ 기능이 AI 컴퓨팅 수요의 중심으로 이동할 전망이다. 생성 AI가 단순히 모델을 만드는 단계를 넘어 실제 산업과 일상에 대규모로 적용되기 시작하면서, 컴퓨팅 구조 자체가 변화하고 있는 것이다.

딜로이트는 2026년 추론 워크로드가 AI 컴퓨팅의 약 3분의 2를 차지할 것으로 전망한다. 2023년 약 3분의 1 수준이던 비중이 2025년 절반 수준까지 확대된 데 이은 것이다. 불과 몇 년 만에 AI 컴퓨팅의 중심축이 완전히 바뀌는 셈이다. 이에 따라 업계에서는 추론 최적화 전용 칩 수요가 빠르게 증가할 것으로 보고 있다. 일부 전문가는 저렴한 추론 칩이 스마트폰과 PC, 각종 엣지 디바이스에 폭넓게 탑재되면서 장기적으로는 대규모 데이터센터 필요성이 줄어들 가능성도 제기한다. 하지만 딜로이트는 AI 산업이 예상보다 훨씬 더 거대한 컴퓨팅 경쟁 체제로 진입하고 있다고 분석한다. 추론 중심 구조가 확대되더라도 전체 AI 컴퓨팅의 상당 부분은 여전히 초고성능, 고전력 그래픽처리장치(GPU)와 대형 데이터센터 중심으로 운영될 가능성이 크다는 것이다. 시장 규모가 2000억달러(약 301조4000억원)를 넘어설 것으로 예상되는 고성능 AI 칩은 초대형 데이터센터와 기업용 온프레미스(사내 구축형) AI 인프라에 집중적으로 투입될 전망이다. 

끊임없이 증가하는 AI 컴퓨팅 수요

최근 들어 신규 AI 모델을 위한 훈련용 컴퓨팅 수요 증가세는 2023~2024년에 비해 다소 둔화했다. 하지만 이것이 전체 컴퓨팅 수요 감소를 의미하지는 않는다. AI 모델은 학습 이후에도 성능 향상을 위해 지속적인 재훈련과 고도화 작업이 필요하기 때문이다. 여기에 수십억 명의 사용자가 생성 AI 서비스를 반복적으로 이용하면서 발생하는 추론 요청까지 더해지자, 전체 컴퓨팅 수요는 오히려 더 빠르게 증가하고 있다.

무어의 법칙에 따라 반도체 효율은 매년 향상되고 있지만, AI 컴퓨팅 수요 증가 속도는 이를 압도하고 있다. 업계에서는 AI 컴퓨팅 수요가 2030년까지 매년 4~5배씩 증가할 가능성도 제기한다. 특히 AI 서비스가 거의 모든 산업으로 확산하면서 추론 요청량은 기하급수적으로 늘어날 전망이다.

2024년 이후 AI 업계에서는 두 가지 변화가 뚜렷하게 나타나기 시작했다. 첫째는 학습 데이터의 한계다. 인터넷과 공개 데이터 기반 학습 데이터가 무한하지 않다는 사실이 확인되면서, 단순히 데이터를 늘리는 방식의 성장 전략에 제약이 생기고 있다. 둘째는 모델 규모를 계속 키워도 성능 개선 폭이 줄어드는 ‘한계효용 감소’ 현상이다. 학습 데이터를 10배 늘려도 모델 성능이 소폭 개선되거나 거의 변화하지 않는 사례가 나타나고 있다.

반면 적은 데이터와 비용으로도 높은 성능을 구현하는 소형·고효율 AI 모델 가능성은 커지고 있다. 이 때문에 업계는 단순히 더 큰 모델을 만드는 경쟁에서 벗어나, 효율적으로 추론을 수행할 수 있는 방향으로 전략을 수정하고 있다. 

추론 시대 열리며 AI 칩 구조 변화

AI 컴퓨팅의 중심이 추론으로 이동하면서 반도체 시장구조도 변화하고 있다. 거대 언어 모델(LLM)에 문서 요약을 요청하는 데 필요한 연산량은 모델 자체를 학습시키는 데 필요한 컴퓨팅과 비교하면 상대적으로 적다. 그러나 수십억 명이 AI 서비스를 반복적으로 사용할 경우 누적되는 추론량은 결국 학습 수요를 뛰어넘게 된다.

이에 따라 추론 최적화 칩 시장이 빠르게 성장하고 있다. 실제로 스마트폰과 PC 등 온디바이스 AI(On-Device AI·클라우드 서버를 거치지 않고 스마트폰, PC 등 기기 자체에서 직접 AI 연산을 수행하는 기술) 기기에는 AI 가속기 탑재가 확대되고 있으며, 데이터센터 내부에서도 추론 특화 칩 사용이 늘어나고 있다. 추론 칩은 학습용 GPU보다 가격이 낮고 전력 소모가 적고, 고가의 고성능 고대역폭 메모리(HBM) 의존도도 상대적으로 낮다. 특히 ASIC(특정 용도를 수행하도록 맞춤 설계된 주문형 반도체) 기반 추론 칩 시장이 급성장하고 있다. 딜로이트는 추론 최적화 칩 시장 규모가 2025년 200억달러(약 30조1400억원)를 넘어선 뒤 2026년에는 500억달러(약 75조3000억원)를 돌파할 것으로 전망한다. 이는 AI 산업이 단순 GPU 경쟁에서 벗어나 목적별 맞춤형 칩 경쟁 체제로 이동하고 있음을 의미한다.

그래도 데이터센터는 더 커질 듯

그렇다면 왜 여전히 개당 3만달러(약 4500만원)를 넘는 초고성능 GPU와 수천억달러 규모 데이터센터 투자가 필요한 것일까. 이유는 AI 모델 발전 방식 자체가 더욱 복잡해지고 있기 때문이다.

초기 생성 AI 경쟁은 대규모 데이터를 학습시키는 ‘사전 학습(pre-training)’ 중심이었다. 하지만 최근에는 파인튜닝, 프루닝, 양자화, 강화 학습, 합성 데이터 증강 같은 ‘사후 학습(post-training)’ 과정의 중요성이 커지고 있다. 여기에 모델이 답변 과정에서 스스로 사고를 반복하는 ‘장시간 사고(long reasoning)’ 기법도 빠르게 확산하고 있다.

이러한 기술은 정확도를 높이고 환각 현상을 줄이는 장점이 있지만, 동시에 막대한 컴퓨팅 자원이 필요하다. 특히 장시간 사고방식은 단순히 즉각적인 답변을 생성하는 것이 아니라 여러 가능성을 검토하고 논리적 추론을 반복하는 구조이기 때문에 전력 소모가 크다. 결국 AI 모델 효율이 개선되더라도 전체 컴퓨팅 수요와 전력 소비는 오히려 증가하는 역설적 구조가 형성되고 있다.

이 때문에 AI 데이터센터 경쟁도 더욱 치열해지고 있다. 글로벌 빅테크(대형 정보기술 기업)는 AI 전용 데이터센터 구축 경쟁에 나서고 있으며, 전력 확보와 냉각 시스템, 반도체 공급망 확보까지 국가 전략 수준의 이슈로 떠오르고 있다.

AI 경쟁력, 이제는 인프라 전쟁

AI 생태계는 현재 빠르게 재편되고 있다. 추론 최적화 칩과 엣지 AI가 성장하고 있지만, 동시에 초대형 데이터센터와 기업용 AI 인프라 투자도 확대되고 있다. 기업은 단순히 비용 절감이 아니라 컴퓨팅 확보, 데이터 주권, 공급망 안정성까지 고려한 하이브리드 AI 전략을 강화하고 있다. 이에 따라 소버린 AI와 온프레미스 AI 수요도 빠르게 증가하는 추세다. 

또한 AI 데이터센터는 분산형 구조와 전력 효율 중심으로 진화하고 있다. HBM 기반 고성능 GPU와 추론 특화 칩이 병행 성장하는 구도도 형성되고 있다. 일각에서는 AI 컴퓨팅 중심이 스마트폰과 PC 같은 소비자 디바이스로 이동할 것으로 전망하지만, 적어도 2026년까지는 기업용 데이터센터 중심 구조가 시장을 주도할 가능성이 크다. 다만 드론·로봇·자율주행차처럼 실시간 추론이 필요한 엣지 AI 분야는 새로운 성장 축으로 부상하고 있다.

결국 AI 경쟁력은 더 이상 모델 성능만으로 결정되지 않는다. 컴퓨팅 인프라, 전력 운용 능력, 반도체 공급망, 데이터 통제 역량까지 포함한 국가·기업 차원의 종합 경쟁력으로 확대되고 있다. 2026년 AI 산업은 단순한 기술 경쟁을 넘어 ‘컴퓨팅 초경쟁 시대’로 본격 진입할 가능성이 크다. 

질리언 크로선 딜로이트 글로벌 첨단 기술·미디어·통신 산업 리더