AI 에이전트시대 시동⋯HBM 주도권 경쟁 더 치열해진다

엔비디아, 추론 전용 칩·새 CPU 공개하며 AI 인프라 경쟁 선언
GPU 중심서 HBM·SSD·패키징 아우르는 시스템 경쟁으로
삼성·SK하이닉스, 엔비디아 공급망 핵심 축으로 부상

▲젠슨 황 엔비디아 최고경영자(CEO)가 16일(현지시간) 미국 캘리포니아주 새너제이의 SAP센터에서 연례 개발자회의 'GTC 2026'의 기조연설을 하고 있다. (AP/연합뉴스)

인공지능(AI) 반도체 전쟁의 무게추가 학습용 그래픽처리장치(GPU)에서 추론 인프라로 옮겨가고 있다. 엔비디아가 추론 전용 칩과 새 중앙처리장치(CPU)를 전면에 내세우며 ‘추론의 변곡점’을 선언하자 업계의 시선은 자연스럽게 고대역폭 메모리(HBM)로 쏠렸다. AI 에이전트 시대에는 연산 칩만으로는 성능을 끌어올릴 수 없고 대용량 데이터를 제때 공급하는 메모리와 이를 묶는 패키징 기술이 병목을 좌우해서다.

젠슨 황 엔비디아 최고경영자(CEO)는 16일(현지시간) 미국 캘리포니아주 새너제이에서 열린 연례 개발자 회의 ‘GTC 2026’ 기조연설에서 추론 전용 칩(LPU)과 새 CPU ‘베라’를 공개하며 AI 반도체 시장의 중심이 학습에서 추론으로 빠르게 이동하고 있다고 밝혔다.

황 CEO는 AI 에이전트 확산으로 추론 수요가 챗GPT 등장 초기보다 1만 배 늘었고 사용량까지 고려하면 전체 연산 수요는 100만 배 증가했다고 진단했다. 엔비디아가 이날 공개한 방향도 여기에 맞춰져 있다. 대규모 연산은 GPU가 맡고 빠른 응답 처리와 저지연 추론은 LPU가 담당하며 CPU가 전체 흐름을 조율하는 구조다. 단일 칩 성능 경쟁이 아니라 시스템 전체 최적화 경쟁으로 AI 반도체 판이 바뀌고 있다는 의미다.

이 과정에서 HBM의 중요성은 더 커지고 있다. AI 에이전트는 대규모언어모델(LLM) 기반 챗봇보다 더 많은 데이터를 더 짧은 시간 안에 처리해야 한다. 결국 GPU가 제 성능을 내기 위해서는 데이터를 제때 공급할 수 있는 HBM과 서버용 D램, SSD가 함께 뒷받침돼야 한다. 업계가 AI 칩은 결국 메모리가 좌우한다고 보는 이유다.

삼성전자는 이번 GTC에서 HBM4E 실물 칩과 코어 다이 웨이퍼를 처음 공개했다. 삼성전자가 제시한 HBM4E는 핀당 16Gbps 속도와 4TB/s 대역폭 구현을 목표로 한다. 열 저항을 20% 이상 개선하고 16단 이상 고적층이 가능한 HCB(Hybrid Copper Bonding) 기술도 함께 선보였다. 메모리와 파운드리, 첨단 패키징을 아우르는 종합반도체 기업(IDM) 구조를 앞세워 AI 인프라 수요에 대응하겠다는 전략이다.

삼성전자는 전시 부스 내 엔비디아 루빈 GPU용 HBM4, 베라 CPU용 소캠(SOCAMM)2, 서버용 솔리드스테이트드라이브(SSD) PM1763을 함께 전시하며 존재감을 부각했다. SK하이닉스도 HBM4와 HBM3E, 소캠2, LPDDR6, GDDR7, eSSD, 자동차용 메모리 솔루션 등 AI 메모리 풀라인업을 공개했다.

업계에서는 이번 GTC를 계기로 HBM 주도권 경쟁이 더 치열해질 것으로 보고 있다. 차세대 AI 서버는 더 높은 대역폭과 더 낮은 전력 소모, 더 안정적인 발열 제어를 동시에 요구한다. 이 조건을 충족하지 못하면 GPU 성능이 높아도 시스템 전체 효율은 떨어질 수밖에 없다. 결국 AI 반도체 시장의 승부처는 GPU 자체보다 이를 받치는 HBM과 패키징, 스토리지 등 인프라 전반으로 넓어지고 있다.

반도체 업계 관계자는 “이제는 어떤 GPU를 쓰느냐보다 그 GPU를 어떤 메모리와 어떤 패키징으로 묶어 최적화하느냐가 더 중요해지고 있다”며 “AI 반도체 시장의 주도권은 연산 칩 기업 혼자 쥐는 구조가 아니라 엔비디아와 HBM 공급망 기업들이 함께 만드는 구조로 재편되고 있다”고 말했다.