AI 반도체 전쟁: 엔비디아 독주와 CUDA라는 해자의 정체

AI 칩은 구글도, 아마존도, AMD도 만듭니다. 그런데 시장의 약 80~90%는 엔비디아가 가져갑니다. 단순히 칩이 빨라서가 아닙니다. 진짜 무기는 '소프트웨어'라는, 눈에 안 보이는 해자입니다.

GPU는 어떻게 AI를 돌리는가

딥러닝의 본질은 거대한 행렬 곱셈의 연속입니다. 신경망은 수십억 개의 가중치(숫자)를 입력값과 곱하고 더하는 과정을 층층이 반복합니다. 이 '같은 연산의 대량 반복'이 GPU의 수천 개 코어와 완벽히 맞아떨어집니다.

학습(Training)은 정답을 보며 가중치를 조금씩 수정하는 과정으로, 막대한 연산이 필요해 고성능 GPU 수천 장을 묶습니다. 추론(Inference)은 이미 학습된 모델로 답만 내는 단계라 상대적으로 가볍지만, 사용자가 많으면 누적 부하는 오히려 더 큽니다.

CUDA: 17년이 만든 진짜 해자

엔비디아의 핵심 경쟁력은 칩이 아니라 CUDA입니다. CUDA는 2007년 출시된, GPU를 일반 연산에 쓰게 해주는 소프트웨어 플랫폼입니다.

전 세계 연구자와 개발자가 17년간 CUDA 위에서 코드를 짜왔습니다. PyTorch, TensorFlow 같은 AI 프레임워크가 CUDA에 최적화돼 있고, 라이브러리·튜토리얼·인력이 전부 CUDA 생태계에 묶여 있습니다. 경쟁사가 더 싸고 빠른 칩을 내놔도, 'CUDA로 짠 코드를 전부 다시 짜야 한다'는 전환 비용이 발목을 잡습니다. 이것이 해자(moat)의 정체입니다.

항목	엔비디아	경쟁사(AMD 등)
하드웨어 성능	최상위	근접·일부 추월
소프트웨어	CUDA(성숙)	ROCm 등(추격 중)
생태계	압도적	구축 단계
전환 비용	매우 높음	진입 장벽

칩만 파는 게 아니다: 시스템 장사

엔비디아는 이제 GPU 한 장이 아니라 'AI 공장' 전체를 팝니다. 수백 장의 GPU를 초고속으로 잇는 NVLink 인터커넥트, 통신을 담당하는 네트워킹(InfiniBand), 그리고 이를 묶은 서버 시스템까지 통째로 공급합니다. AI 학습은 GPU 한 장이 아니라 '수천 장이 한 몸처럼 도는 것'이 관건이라, 이 묶음 자체가 경쟁력입니다.

아킬레스건: HBM 의존

AI 가속기의 발목을 잡는 건 연산이 아니라 '메모리 대역폭'입니다. 수십억 개 가중치를 연산 코어로 끊임없이 실어 날라야 하는데, 일반 메모리로는 코어가 데이터를 기다리며 노는 '폰노이만 병목'이 생깁니다.

해법이 **HBM(고대역폭 메모리)**입니다. 메모리 칩을 수직으로 쌓아 GPU 바로 옆에 붙여 데이터 고속도로를 넓힌 것이죠. 문제는 HBM을 만들 수 있는 곳이 SK하이닉스, 삼성, 마이크론뿐이라, AI 칩 공급이 사실상 HBM 생산량에 묶여 있다는 점입니다. AI 전쟁이 메모리 전쟁이기도 한 이유입니다.

균열은 추론에서 시작된다

독주에도 틈은 있습니다. 학습은 엔비디아 천하지만, 추론 시장은 다릅니다. 구글의 TPU, 아마존의 Trainium·Inferentia, 그리고 여러 NPU 스타트업이 '특정 모델을 더 싸고 효율적으로 추론'하는 전용 칩으로 파고듭니다.

빅테크들은 엔비디아 의존을 줄이려 자체 칩(ASIC) 개발에 수십조를 쏟고 있습니다. 추론 비용이 곧 서비스 원가이기 때문이죠. CUDA 해자는 여전히 깊지만, '범용 GPU vs 전용 칩'의 2차전이 추론 시장에서 벌어지고 있습니다.

한 줄 정리

엔비디아의 진짜 힘은 빠른 GPU가 아니라 17년간 쌓인 CUDA 생태계와 시스템 통합력입니다. 다만 HBM 공급이라는 병목과 추론 시장의 전용 칩 도전이, 영원할 것 같던 독주에 균열을 내고 있습니다.

AI 반도체 전쟁: 엔비디아 독주와 CUDA라는 해자의 정체

GPU는 어떻게 AI를 돌리는가

CUDA: 17년이 만든 진짜 해자

칩만 파는 게 아니다: 시스템 장사

아킬레스건: HBM 의존

균열은 추론에서 시작된다

한 줄 정리

함께 보면 좋은 글

NPU는 GPU와 뭐가 다른가 — 온디바이스 AI의 핵심

CPU vs GPU vs NPU 완전정복: AI 시대, 왜 하필 GPU인가

AI 학습용 칩과 추론용 칩은 왜 다를까