NPU는 GPU와 뭐가 다른가 — 온디바이스 AI의 핵심

최신 스마트폰과 노트북 발표회에 단골로 등장하는 단어가 NPU다. "NPU 성능 OO TOPS"라는 식으로 자랑한다. 그런데 이미 GPU가 AI를 잘 돌린다는데, 왜 NPU를 따로 넣을까. 둘의 차이를 알면 '온디바이스 AI'라는 흐름이 보인다.

먼저, AI 연산의 정체

신경망 AI 연산의 대부분은 사실 **곱하고 더하기(행렬 곱셈)**의 반복이다. 입력값에 가중치를 곱해 쌓는 단순 계산이 어마어마하게 많이 일어난다. 그래서 AI 칩의 핵심은 '이 단순 곱셈·덧셈을 얼마나 많이, 얼마나 적은 전력으로 처리하느냐'다.

GPU: 만능 병렬 일꾼

GPU는 원래 그래픽용으로, 수천 개의 코어로 같은 계산을 동시에 처리하는 병렬 연산의 강자다. AI 학습(training)처럼 막대한 연산이 필요할 땐 GPU가 제격이다. 다만 그래픽·범용 연산까지 두루 하도록 설계돼, 순수 AI 연산만 놓고 보면 전력 효율이 최적은 아니다.

NPU: AI만을 위한 전용 일꾼

**NPU(Neural Processing Unit)**는 처음부터 신경망 연산만을 위해 만든 전용 칩이다. 행렬 곱셈·누적(MAC) 연산을 빽빽하게 깔아, 같은 AI 연산을 훨씬 적은 전력으로 처리한다. 범용성을 버린 대신 효율을 극단적으로 끌어올린 것이다.

비유하자면 GPU는 뭐든 잘하는 만능 요리사, NPU는 한 가지 요리만 초고속으로 뽑는 전문 기계다.

구분	GPU	NPU
설계 목적	그래픽·범용 병렬	AI 연산 전용
강점	유연성·대규모 학습	전력 효율·추론
주 무대	데이터센터·게이밍	스마트폰·노트북

왜 기기 안에 NPU를 넣나: 온디바이스 AI

예전엔 AI 기능을 쓰려면 데이터를 서버로 보내 처리하고 결과를 받아왔다. 하지만 이 방식은 ①인터넷이 필요하고, ②지연이 있고, ③개인 데이터가 밖으로 나간다. NPU를 기기 안에 넣으면 인터넷 없이, 빠르게, 데이터를 기기 밖으로 보내지 않고 AI를 돌릴 수 있다. 이것이 온디바이스 AI다.

사진 자동 보정, 실시간 번역, 음성 비서, 노이즈 제거 같은 기능이 기기 안에서 즉각 처리되는 배경에 NPU가 있다. 배터리로 동작하는 기기일수록 전력 효율 좋은 NPU의 가치가 크다.

TOPS라는 숫자

NPU 성능은 흔히 **TOPS(Tera Operations Per Second, 초당 조 단위 연산)**로 표기한다. 숫자가 클수록 초당 더 많은 AI 연산을 처리한다는 뜻이다. 다만 TOPS는 이론 최대치라 실제 체감과는 차이가 있고, 어떤 정밀도(INT8 등) 기준인지에 따라 값이 달라진다.

한 줄 정리

GPU가 유연한 범용 병렬 일꾼이라면 NPU는 AI 연산 전용으로 전력 효율을 극대화한 칩이며, 인터넷 없이 기기 안에서 AI를 돌리는 온디바이스 AI의 핵심이다.

NPU는 GPU와 뭐가 다른가 — 온디바이스 AI의 핵심

먼저, AI 연산의 정체

GPU: 만능 병렬 일꾼

NPU: AI만을 위한 전용 일꾼

왜 기기 안에 NPU를 넣나: 온디바이스 AI

TOPS라는 숫자

한 줄 정리

함께 보면 좋은 글

CPU vs GPU vs NPU 완전정복: AI 시대, 왜 하필 GPU인가

AI 반도체 전쟁: 엔비디아 독주와 CUDA라는 해자의 정체

AI 학습용 칩과 추론용 칩은 왜 다를까