CPU vs GPU vs NPU 완전정복: AI 시대, 왜 하필 GPU인가

ChatGPT에게 질문 하나를 던지면, 그 답을 만들기 위해 수천 개의 연산 코어가 동시에 불을 켭니다. 그런데 정작 여러분 노트북의 CPU는 코어가 8개 남짓이죠. 같은 '컴퓨터 칩'인데 왜 AI는 GPU를 고집할까요? 답은 '문제의 모양'에 있습니다.

CPU: 똑똑한 소수 정예

CPU(중앙처리장치)는 복잡한 판단을 빠르게 내리는 '소수 정예' 구조입니다. 코어는 보통 4~~16개지만, 각 코어가 매우 똑똑합니다. 분기 예측, 깊은 캐시, 높은 클럭(약 3~~5GHz)으로 '순서대로 풀어야 하는 복잡한 일'을 잘 처리합니다.

비유하면 CPU는 박사 학위 연구원 몇 명입니다. 어려운 문제 하나는 기막히게 풀지만, 단순 계산 100만 개를 시키면 한 명씩 줄 세워 처리하느라 느립니다.

GPU: 단순한 일꾼 수천 명

GPU(그래픽처리장치)는 정반대입니다. 코어 하나하나는 단순하지만, 수천~수만 개를 한꺼번에 돌립니다. 엔비디아 H100은 연산 유닛(CUDA 코어)이 약 1만 6천 개에 달합니다.

원래 GPU는 화면의 수백만 픽셀을 동시에 칠하려고 만들어졌습니다. 그런데 AI의 핵심인 '행렬 곱셈'이 바로 이 구조와 똑같습니다. 같은 곱셈·덧셈을 데이터만 바꿔 무수히 반복하는 일, 즉 SIMD(단일 명령 다중 데이터) 작업이죠.

구분	CPU	GPU	NPU
코어 수	수~수십 개	수천~수만 개	전용 연산 어레이
코어 성격	복잡·범용	단순·반복	AI 전용 고정
강점	순차·논리 처리	대규모 병렬	저전력 추론
대표 용도	OS·앱 제어	AI 학습·그래픽	온디바이스 AI
전력 효율	중간	높음(고전력)	매우 높음

텐서코어와 TOPS, 그게 뭔데?

GPU 안에는 행렬 곱셈만 전담하는 **텐서코어(Tensor Core)**가 따로 있습니다. 일반 코어가 곱셈을 한 번에 하나씩 한다면, 텐서코어는 작은 행렬 곱셈 전체를 한 사이클에 처리합니다. AI 연산의 90% 이상이 행렬 곱셈이라, 이 전용 회로가 성능을 수십 배 끌어올립니다.

성능 단위는 TOPS(Tera Operations Per Second), 즉 '초당 몇 조 번 연산'입니다. 50 TOPS면 1초에 50조 번 곱하고 더한다는 뜻이죠. 학습용 GPU는 페타(1000조) 단위인 TFLOPS/PFLOPS로 표기하기도 합니다.

정밀도를 낮추면 더 빨라진다

AI의 또 다른 비밀은 '정밀도 타협'입니다. 일반 계산은 FP32(32비트)를 쓰지만, AI는 숫자가 조금 뭉툭해도 결과가 거의 같습니다. 그래서 비트 수를 줄입니다.

FP16 / BF16: 16비트. 학습에 주로 사용, 속도·메모리 절반
INT8: 8비트 정수. 추론에 사용, 더 빠르고 전력 절약
FP8 / INT4: 최신 추론용. 더 극단적인 경량화

비트를 반으로 줄이면 같은 칩에서 약 2배 빠르고, 메모리도 절반만 씁니다. 'TOPS는 어떤 정밀도 기준인지'가 중요한 이유입니다(INT8 기준 100 TOPS와 FP16 기준은 다른 숫자).

NPU: 스마트폰 속 AI 전담 칩

**NPU(신경망처리장치)**는 'AI 추론만' 하도록 고정 설계된 칩입니다. 스마트폰·노트북에 들어가 사진 보정, 음성 인식, 번역을 기기 안에서(온디바이스) 처리합니다.

GPU가 만능 병렬 일꾼이라면, NPU는 'AI 한 가지만 잘하는 대신 전력을 거의 안 먹는' 전용 일꾼입니다. 그래서 배터리로 도는 모바일 기기에 딱 맞습니다. 다만 학습 같은 무거운 작업은 여전히 GPU 몫입니다.

한 줄 정리

CPU는 복잡한 일을 빠르게, GPU는 단순한 일을 수만 개씩 동시에, NPU는 AI 추론을 저전력으로 처리합니다. AI가 '같은 계산의 대량 반복'이기에, 병렬과 텐서코어를 가진 GPU가 이 시대의 주인공이 된 것입니다.

CPU vs GPU vs NPU 완전정복: AI 시대, 왜 하필 GPU인가

CPU: 똑똑한 소수 정예

GPU: 단순한 일꾼 수천 명

텐서코어와 TOPS, 그게 뭔데?

정밀도를 낮추면 더 빨라진다

NPU: 스마트폰 속 AI 전담 칩

한 줄 정리

함께 보면 좋은 글

NPU는 GPU와 뭐가 다른가 — 온디바이스 AI의 핵심

AI 반도체 전쟁: 엔비디아 독주와 CUDA라는 해자의 정체

칩렛(Chiplet) 시대: 무어의 법칙이 끝나도 칩이 빨라지는 법