젠슨 황 엔비디아 최고경영자(CEO)가 본격적인 인공지능(AI) 에이전트 시대를 주도하기 위한 새로운 하드웨어 청사진을 제시했다.
황 CEO는 16일(현지시간) 미국 캘리포니아주(州) 새너제이의 SAP센터에서 개최된 엔비디아 연례 개발자 회의 'GTC 2026' 기조연설 무대에 올랐다.
이 자리에서 그는 차세대 AI 슈퍼컴퓨터 '베라 루빈'에 '그록(Groq)3 언어처리장치(LPU)'를 새롭게 탑재할 계획이라고 밝혔다.
이번 하드웨어 결합의 주된 목적은 연산 부하의 분산이다. 방대한 데이터 기반의 묵직한 연산은 기존 '루빈' 그래픽처리장치(GPU)가 소화하는 반면, AI가 신속하게 답변을 내놓는 과정은 초고속 LPU가 담당하도록 설계됐다.
황 CEO는 이 같은 역할 분담을 도입하면 조 단위 파라미터(매개변수) 규모의 최상위 AI 모델의 추론 처리량을 35배가량 개선할 수 있으며, 저지연(low latency) 역량 역시 한층 끌어올릴 수 있다고 강조했다.
아울러 엔비디아는 LPU 256개로 이루어진 LPX 랙을 베라 루빈 시스템에 편입시켰다. 이로써 지난 1월 CES 무대에서 6가지로 소개됐던 베라 루빈의 부품 라인업은 LPU가 추가되며 총 7가지로 늘어났다.
추론에 특화된 칩 외에도 중앙처리장치(CPU)의 성능 개선도 주목을 받았다.
새롭게 공개된 CPU '베라'는 기존 x86 기반 칩보다 1.5배 뛰어난 성능을 발휘하며, 에너지 효율 측면에서도 2배 향상된 전력 관리 능력을 갖췄다. AI 연산을 뒷받침하고자 엔비디아가 자체 개발한 '올림퍼스(Olympus)' 코어를 내장해 기존 x86 CPU 대비 3배 수준의 메모리 대역폭을 지원한다.
현장에서는 베라 CPU 256개를 탑재한 전용 랙 장비도 공개됐다.
엔비디아가 추론용 칩과 신형 CPU를 잇달아 선보인 것은 단순한 대화형 AI 챗봇을 넘어 'AI 에이전트' 시대를 겨냥하고 있기 때문이다.
에이전트 기반 환경을 원활히 구동하려면 월등한 처리 속도는 물론, 전체 프로세스를 매끄럽게 지휘하는 조율 능력이 뒷받침돼야 한다. 시스템 내 데이터 연산의 중추는 GPU가 담당하고, 그 결과값을 바탕으로 에이전트에게 세부 지시를 내리는 임무는 LPU가 맡으며, 상황에 맞춰 권한을 통제하는 총괄 역할은 CPU가 수행하는 삼각 협업 체계다.
또 황 CEO는 '루빈'의 후속 GPU '파인만'의 존재도 공개했다. 파인만은 '로자'로 명명된 새로운 CPU, 그리고 향후 출시될 'LP40 LPU'와 결합해 작동하게 된다.
그는 사업 전망에 대해 "내년 무렵이면 엔비디아가 맞이할 AI 칩 관련 매출 기회가 적어도 1조달러(약 1500조원) 규모에 이를 것"이라며 강한 자신감을 드러냈다.