CPU vs GPU vs NPU 완전정복: AI 시대, 왜 하필 GPU인가
ChatGPT에게 질문 하나를 던지면, 그 답을 만들기 위해 수천 개의 연산 코어가 동시에 불을 켭니다. 그런데 정작 여러분 노트북의 CPU는 코어가 8개 남짓이죠. 같은 '컴퓨터 칩'인데 왜 AI는 GPU를 고집할까요? 답은 '문제의 모양'에 있습니다.
CPU: 똑똑한 소수 정예
CPU(중앙처리장치)는 복잡한 판단을 빠르게 내리는 '소수 정예' 구조입니다. 코어는 보통 416개지만, 각 코어가 매우 똑똑합니다. 분기 예측, 깊은 캐시, 높은 클럭(약 35GHz)으로 '순서대로 풀어야 하는 복잡한 일'을 잘 처리합니다.
비유하면 CPU는 박사 학위 연구원 몇 명입니다. 어려운 문제 하나는 기막히게 풀지만, 단순 계산 100만 개를 시키면 한 명씩 줄 세워 처리하느라 느립니다.
GPU: 단순한 일꾼 수천 명
GPU(그래픽처리장치)는 정반대입니다. 코어 하나하나는 단순하지만, 수천~수만 개를 한꺼번에 돌립니다. 엔비디아 H100은 연산 유닛(CUDA 코어)이 약 1만 6천 개에 달합니다.
원래 GPU는 화면의 수백만 픽셀을 동시에 칠하려고 만들어졌습니다. 그런데 AI의 핵심인 '행렬 곱셈'이 바로 이 구조와 똑같습니다. 같은 곱셈·덧셈을 데이터만 바꿔 무수히 반복하는 일, 즉 SIMD(단일 명령 다중 데이터) 작업이죠.
| 구분 | CPU | GPU | NPU |
|---|---|---|---|
| 코어 수 | 수~수십 개 | 수천~수만 개 | 전용 연산 어레이 |
| 코어 성격 | 복잡·범용 | 단순·반복 | AI 전용 고정 |
| 강점 | 순차·논리 처리 | 대규모 병렬 | 저전력 추론 |
| 대표 용도 | OS·앱 제어 | AI 학습·그래픽 | 온디바이스 AI |
| 전력 효율 | 중간 | 높음(고전력) | 매우 높음 |
텐서코어와 TOPS, 그게 뭔데?
GPU 안에는 행렬 곱셈만 전담하는 **텐서코어(Tensor Core)**가 따로 있습니다. 일반 코어가 곱셈을 한 번에 하나씩 한다면, 텐서코어는 작은 행렬 곱셈 전체를 한 사이클에 처리합니다. AI 연산의 90% 이상이 행렬 곱셈이라, 이 전용 회로가 성능을 수십 배 끌어올립니다.
성능 단위는 TOPS(Tera Operations Per Second), 즉 '초당 몇 조 번 연산'입니다. 50 TOPS면 1초에 50조 번 곱하고 더한다는 뜻이죠. 학습용 GPU는 페타(1000조) 단위인 TFLOPS/PFLOPS로 표기하기도 합니다.
정밀도를 낮추면 더 빨라진다
AI의 또 다른 비밀은 '정밀도 타협'입니다. 일반 계산은 FP32(32비트)를 쓰지만, AI는 숫자가 조금 뭉툭해도 결과가 거의 같습니다. 그래서 비트 수를 줄입니다.
- FP16 / BF16: 16비트. 학습에 주로 사용, 속도·메모리 절반
- INT8: 8비트 정수. 추론에 사용, 더 빠르고 전력 절약
- FP8 / INT4: 최신 추론용. 더 극단적인 경량화
비트를 반으로 줄이면 같은 칩에서 약 2배 빠르고, 메모리도 절반만 씁니다. 'TOPS는 어떤 정밀도 기준인지'가 중요한 이유입니다(INT8 기준 100 TOPS와 FP16 기준은 다른 숫자).
NPU: 스마트폰 속 AI 전담 칩
**NPU(신경망처리장치)**는 'AI 추론만' 하도록 고정 설계된 칩입니다. 스마트폰·노트북에 들어가 사진 보정, 음성 인식, 번역을 기기 안에서(온디바이스) 처리합니다.
GPU가 만능 병렬 일꾼이라면, NPU는 'AI 한 가지만 잘하는 대신 전력을 거의 안 먹는' 전용 일꾼입니다. 그래서 배터리로 도는 모바일 기기에 딱 맞습니다. 다만 학습 같은 무거운 작업은 여전히 GPU 몫입니다.
한 줄 정리
CPU는 복잡한 일을 빠르게, GPU는 단순한 일을 수만 개씩 동시에, NPU는 AI 추론을 저전력으로 처리합니다. AI가 '같은 계산의 대량 반복'이기에, 병렬과 텐서코어를 가진 GPU가 이 시대의 주인공이 된 것입니다.
함께 보면 좋은 글
NPU는 GPU와 뭐가 다른가 — 온디바이스 AI의 핵심
스마트폰·노트북 광고에 등장하는 'NPU'. GPU와 뭐가 다르고 왜 따로 넣을까? 신경망 연산에 특화된 NPU의 원리와, 온디바이스 AI 시대에 NPU가 중요한 이유를 정리한다.
AI 반도체 전쟁: 엔비디아 독주와 CUDA라는 해자의 정체
왜 모두가 AI 칩을 만드는데 엔비디아만 웃을까. GPU가 AI를 돌리는 원리부터, 17년간 쌓인 CUDA 소프트웨어 생태계라는 진짜 해자, HBM 의존과 추론 시장의 균열까지 정리한다.
칩렛(Chiplet) 시대: 무어의 법칙이 끝나도 칩이 빨라지는 법
거대한 단일 칩의 한계를 레고처럼 쪼개 푸는 칩렛 전략을 풀어낸다. 모놀리식의 수율 문제, 칩렛·이종집적, 2.5D/3D 패키징과 인터포저, AI 칩과 HBM 결합까지 한 번에 이해한다.