NPU는 GPU와 뭐가 다른가 — 온디바이스 AI의 핵심
최신 스마트폰과 노트북 발표회에 단골로 등장하는 단어가 NPU다. "NPU 성능 OO TOPS"라는 식으로 자랑한다. 그런데 이미 GPU가 AI를 잘 돌린다는데, 왜 NPU를 따로 넣을까. 둘의 차이를 알면 '온디바이스 AI'라는 흐름이 보인다.
먼저, AI 연산의 정체
신경망 AI 연산의 대부분은 사실 **곱하고 더하기(행렬 곱셈)**의 반복이다. 입력값에 가중치를 곱해 쌓는 단순 계산이 어마어마하게 많이 일어난다. 그래서 AI 칩의 핵심은 '이 단순 곱셈·덧셈을 얼마나 많이, 얼마나 적은 전력으로 처리하느냐'다.
GPU: 만능 병렬 일꾼
GPU는 원래 그래픽용으로, 수천 개의 코어로 같은 계산을 동시에 처리하는 병렬 연산의 강자다. AI 학습(training)처럼 막대한 연산이 필요할 땐 GPU가 제격이다. 다만 그래픽·범용 연산까지 두루 하도록 설계돼, 순수 AI 연산만 놓고 보면 전력 효율이 최적은 아니다.
NPU: AI만을 위한 전용 일꾼
**NPU(Neural Processing Unit)**는 처음부터 신경망 연산만을 위해 만든 전용 칩이다. 행렬 곱셈·누적(MAC) 연산을 빽빽하게 깔아, 같은 AI 연산을 훨씬 적은 전력으로 처리한다. 범용성을 버린 대신 효율을 극단적으로 끌어올린 것이다.
비유하자면 GPU는 뭐든 잘하는 만능 요리사, NPU는 한 가지 요리만 초고속으로 뽑는 전문 기계다.
| 구분 | GPU | NPU |
|---|---|---|
| 설계 목적 | 그래픽·범용 병렬 | AI 연산 전용 |
| 강점 | 유연성·대규모 학습 | 전력 효율·추론 |
| 주 무대 | 데이터센터·게이밍 | 스마트폰·노트북 |
왜 기기 안에 NPU를 넣나: 온디바이스 AI
예전엔 AI 기능을 쓰려면 데이터를 서버로 보내 처리하고 결과를 받아왔다. 하지만 이 방식은 ①인터넷이 필요하고, ②지연이 있고, ③개인 데이터가 밖으로 나간다. NPU를 기기 안에 넣으면 인터넷 없이, 빠르게, 데이터를 기기 밖으로 보내지 않고 AI를 돌릴 수 있다. 이것이 온디바이스 AI다.
사진 자동 보정, 실시간 번역, 음성 비서, 노이즈 제거 같은 기능이 기기 안에서 즉각 처리되는 배경에 NPU가 있다. 배터리로 동작하는 기기일수록 전력 효율 좋은 NPU의 가치가 크다.
TOPS라는 숫자
NPU 성능은 흔히 **TOPS(Tera Operations Per Second, 초당 조 단위 연산)**로 표기한다. 숫자가 클수록 초당 더 많은 AI 연산을 처리한다는 뜻이다. 다만 TOPS는 이론 최대치라 실제 체감과는 차이가 있고, 어떤 정밀도(INT8 등) 기준인지에 따라 값이 달라진다.
한 줄 정리
GPU가 유연한 범용 병렬 일꾼이라면 NPU는 AI 연산 전용으로 전력 효율을 극대화한 칩이며, 인터넷 없이 기기 안에서 AI를 돌리는 온디바이스 AI의 핵심이다.
함께 보면 좋은 글
CPU vs GPU vs NPU 완전정복: AI 시대, 왜 하필 GPU인가
AI 연산이 GPU로 몰리는 이유를 병렬 구조로 풀어낸다. CPU의 똑똑한 소수 코어, GPU의 단순한 수천 코어, 텐서코어와 TOPS, INT8 정밀도까지 비전공자도 한 번에 이해하는 가이드.
AI 반도체 전쟁: 엔비디아 독주와 CUDA라는 해자의 정체
왜 모두가 AI 칩을 만드는데 엔비디아만 웃을까. GPU가 AI를 돌리는 원리부터, 17년간 쌓인 CUDA 소프트웨어 생태계라는 진짜 해자, HBM 의존과 추론 시장의 균열까지 정리한다.
AI 학습용 칩과 추론용 칩은 왜 다를까
AI 칩 시장은 '학습(training)'과 '추론(inference)'으로 갈린다. 무엇이 다르고, 왜 추론 시장이 더 커질 거라는 전망이 나오는지 입문자 눈높이로 정리한다.