TPU vs GPU — AI 학습용 프로세서, 뭐가 더 나을까?

AI를 좀 파다 보면 어느 순간 “TPU"라는 단어를 마주치게 됩니다. 처음엔 GPU 오타인 줄 알았어요. 진짜로. 근데 찾아보니까 Google이 AI 전용으로 만든 완전히 다른 칩이더라고요. GPU가 AI 학습의 표준처럼 쓰이고 있는데, 그러면 TPU는 대체 왜 만든 걸까? 그리고 뭐가 다를까? 오늘은 이 둘을 제대로 비교해보려고 합니다.

TPU가 뭔데?

TPU는 Tensor Processing Unit의 약자입니다. 이름에서 눈치채신 분도 있겠지만, “텐서” 연산에 특화된 프로세서예요. 텐서가 뭐냐면, 쉽게 말해서 AI 모델이 계산할 때 쓰는 다차원 배열(행렬) 같은 겁니다. 딥러닝에서 핵심이 되는 연산이죠.

Google이 2016년에 처음 공개했는데, 자기네 데이터센터에서 AI 워크로드가 폭증하니까 GPU로는 비용이나 전력 면에서 감당이 안 됐던 모양이에요. 그래서 아예 AI 연산만을 위한 칩을 직접 설계한 거죠. AI 반도체 전쟁 글에서 다뤘던 것처럼, 빅테크들이 자체 칩을 만드는 흐름의 대표적인 사례입니다.

중요한 건, TPU는 일반 소비자가 살 수 있는 물건이 아니라는 점입니다. NVIDIA GPU처럼 쿠팡에서 주문할 수 있는 게 아니에요. Google Cloud Platform을 통해서만 접근할 수 있습니다. 이 부분은 뒤에서 다시 이야기할게요.

GPU는 원래 AI용이 아니었다

여기서 잠깐 GPU 이야기를 하고 넘어가야 합니다. GPU는 원래 이름 그대로 Graphics Processing Unit, 그래픽 처리 장치예요. 게임할 때 화면을 그려주는 게 본업이었죠.

그런데 AI 연구자들이 발견한 겁니다. GPU가 수천 개의 작은 코어로 병렬 연산을 하는 구조가, 딥러닝의 행렬 곱셈과 딱 맞아떨어진다는 걸요. 그래서 NVIDIA가 CUDA라는 프로그래밍 플랫폼을 만들고, 여기에 텐서 코어까지 추가하면서 AI 쪽으로 완전히 자리를 잡은 거예요. GPU VRAM이 AI에서 왜 중요한지 궁금하시면 이전 글을 참고해주세요.

핵심은, GPU는 그래픽도 하고 AI도 하는 “범용” 프로세서라는 겁니다. 반면 TPU는 AI 연산만 하는 “전용” 프로세서죠. 이 차이가 꽤 큽니다.

구조적으로 뭐가 다른 건지

GPU는 범용성이 강점입니다. CUDA 코어 수천 개가 다양한 종류의 병렬 연산을 처리할 수 있고, 최신 GPU에는 AI 전용 텐서 코어도 들어가 있습니다. 그래픽 렌더링, 영상 편집, 과학 시뮬레이션, 그리고 AI 학습까지 이것저것 다 할 수 있어요.

TPU는 처음부터 행렬 곱셈과 합성곱 연산, 이 두 가지에 올인한 설계입니다. 내부에 MXU(Matrix Multiply Unit)라는 거대한 행렬 연산 유닛이 박혀 있는데, 이게 128x128 크기의 행렬 연산을 한 사이클에 처리합니다. GPU의 텐서 코어가 4x4나 8x8 수준인 것과 비교하면 규모 자체가 다르죠.

그리고 TPU는 HBM(High Bandwidth Memory)을 사용하는데, 메모리 대역폭이 어마어마합니다. 대규모 모델을 학습할 때 데이터를 빠르게 주고받아야 하는데, 이 부분에서 TPU가 상당히 유리해요.

대신에, TPU는 딥러닝 연산 외에는 못 합니다. 게임 돌리기? 안 됩니다. 영상 편집? 안 됩니다. 진짜 AI 연산만 합니다. 극단적으로 하나에 특화된 칩인 거죠.

어떤 상황에서 TPU가 강한지

솔직히 TPU가 빛을 발하는 건 대규모 학습입니다. Google이 자사 모델(Gemini, PaLM 등)을 학습시킬 때 TPU를 수천 개 묶어서 씁니다. 이 규모의 작업에서는 TPU의 설계 철학이 확실히 효율적이에요.

TPU끼리 연결하는 네트워크가 잘 되어 있어서, 수백~수천 개의 TPU를 하나의 클러스터로 묶어 쓸 수 있습니다. GPU도 멀티 GPU 구성이 가능하긴 한데, NVLink나 InfiniBand 같은 별도 장비가 필요하고 비용도 만만찮거든요. TPU는 이 부분이 아키텍처 수준에서 통합되어 있어서 스케일링이 비교적 깔끔합니다.

또 TensorFlow/JAX와의 궁합이 좋습니다. 당연히 Google이 만든 칩이니까 Google이 만든 프레임워크에 최적화가 잘 되어 있겠죠. 특히 JAX + TPU 조합은 대규모 학습에서 꽤 좋은 성능을 보여줍니다.

전력 효율도 언급할 만합니다. 같은 연산량 대비 TPU가 GPU보다 전력을 덜 먹는다는 벤치마크 결과가 꽤 있어요. 데이터센터 규모에서는 전기세가 어마어마하니까, 이 차이가 무시 못 할 수준이 됩니다.

그러면 GPU는 언제 더 나은지

사실 대부분의 상황에서 GPU가 더 나은 선택입니다. 좀 과장하면 “99%의 사용자에게는 GPU"라고 말해도 틀리지 않아요.

첫 번째 이유는 생태계입니다. NVIDIA vs AMD 비교 글에서 자세히 다뤘지만, NVIDIA의 CUDA 생태계는 지금 AI 세계의 사실상 표준이에요. PyTorch를 쓰든 뭘 쓰든, 대부분의 코드와 튜토리얼이 CUDA 기반이고, 에러가 나도 검색하면 해결법이 나옵니다. TPU 관련 에러는? 검색해봐야 나오는 게 별로 없더라고요. 커뮤니티 크기 차이가 실사용에서 체감이 큽니다.

두 번째는 프레임워크 호환성입니다. PyTorch가 사실상 업계 표준이 된 지금, TPU에서 PyTorch를 돌리려면 PyTorch/XLA라는 걸 써야 하는데 아직 매끄럽지 않은 부분이 있어요. 네이티브 PyTorch처럼 자연스럽지가 않습니다. TPU는 TensorFlow이나 JAX에 최적화되어 있어서, PyTorch 유저에게는 진입 장벽이 있죠.

세 번째는 유연성입니다. GPU는 학습도 하고, 추론도 하고, 영상도 편집하고, 게임도 합니다. RTX 5070 하나면 AI 실험도 하면서 저녁에는 게임도 할 수 있어요. TPU는 AI 연산만 합니다. 개인 사용자 입장에서 이건 상당한 단점이에요.

네 번째로, 로컬에서 쓸 수 있다는 점. GPU는 직접 구매해서 내 PC에 꽂을 수 있잖아요. TPU는 그게 안 됩니다. 무조건 클라우드를 통해서만 접근 가능하고, 그 말은 인터넷이 끊기면 못 쓴다는 뜻이에요. 데이터 프라이버시가 중요한 작업이라면 이것도 문제가 됩니다.

Google Cloud TPU 접근하기

혹시 TPU를 써보고 싶다면, Google Cloud Platform(GCP)에서 가능합니다. 접근 방법을 간단히 정리해볼게요.

가장 쉬운 방법은 Google Colab입니다. Colab에서 런타임 유형을 TPU로 바꾸면 무료로 TPU v2를 사용할 수 있어요. 무료 tier에서는 사용 시간에 제한이 있고, 성능도 최신 TPU에 비하면 한참 떨어지지만 “TPU가 어떤 느낌인지” 맛보기에는 충분합니다. Colab Pro에서는 좀 더 나은 TPU에 접근할 수 있고요.

본격적으로 쓰려면 GCP의 Cloud TPU 서비스를 이용해야 합니다. TPU v4, v5e 같은 최신 세대를 시간 단위로 빌려 쓸 수 있는데, 비용이 꽤 나갑니다. 물론 클라우드 GPU 서비스도 비용이 만만찮긴 마찬가지지만요. GCP 콘솔에서 Compute Engine 아래 TPU 항목을 찾으면 되고, gcloud CLI로도 생성할 수 있습니다.

한 가지 팁을 드리자면, Google Research에서 TPU Research Cloud(TRC) 프로그램을 운영합니다. 연구 목적이라면 TPU를 무료로 할당받을 수 있는 프로그램인데, 개인 연구자나 학생도 신청할 수 있어요. 승인받으면 꽤 괜찮은 TPU 자원을 무료로 쓸 수 있으니 연구 중이시라면 한번 알아보실 만합니다.

개인 사용자라면 현실적으로 뭘 골라야 할까

솔직히 말하면, 이 글을 읽고 계신 분 대부분은 GPU가 답입니다. TPU를 일상적으로 쓸 일이 있는 개인 사용자는 거의 없어요.

로컬에서 LLM 돌려보고 싶다, 이미지 생성 AI 해보고 싶다, 간단한 파인튜닝 해보고 싶다 — 이 모든 경우에 NVIDIA GPU 한 장이 가장 현실적인 선택입니다. RTX 4090이나 5090 같은 고사양 GPU면 웬만한 개인 프로젝트는 충분히 커버되고, 부족하면 클라우드 GPU를 잠깐 빌리면 됩니다.

TPU가 의미 있어지는 건, 정말 대규모 모델을 학습시키거나 Google 생태계(TensorFlow/JAX) 위에서 작업하는 경우입니다. 회사나 연구실에서 수백 GPU 규모의 학습을 돌려야 하는데 NVIDIA H100 클러스터 비용이 부담스럽다면, TPU 클러스터가 경쟁력 있는 대안이 될 수 있어요. 근데 이건 개인의 영역이 아니라 조직의 영역이죠.

써보니까 느끼는 건, TPU는 “도구"라기보다 “인프라"에 가깝다는 점이에요. GPU는 내가 사서 내 책상 위에 두고 자유롭게 쓸 수 있는 도구지만, TPU는 Google이라는 거대한 인프라의 일부로만 접근 가능한 자원입니다. 이 차이가 개인 사용자 관점에서는 결정적이에요.

마치며

정리하면 이렇습니다. TPU는 대규모 AI 학습에 특화된 Google의 전용 칩이고, 같은 연산에서는 GPU보다 효율적일 수 있습니다. 하지만 접근성, 생태계, 범용성 면에서 GPU가 압도적으로 유리하고, 개인 사용자에게는 NVIDIA GPU가 여전히 최선의 선택이에요.

TPU가 나쁜 게 아니라, 용도와 규모가 다른 겁니다. F1 레이싱카가 아무리 빨라도 출퇴근용으로는 SUV가 낫잖아요. 비슷한 맥락이에요.

AI 분야에서 프로세서 선택이 고민된다면, 먼저 NVIDIA와 AMD의 차이부터 파악하고, 내 용도에 맞는 GPU VRAM 용량을 확인한 다음에, 정말 그 이상이 필요한지 판단해보세요. 대부분은 그 이상이 필요 없을 겁니다. 그리고 그게 전혀 나쁜 게 아니에요.

TPU가 뭔데?#

GPU는 원래 AI용이 아니었다#

구조적으로 뭐가 다른 건지#

어떤 상황에서 TPU가 강한지#

그러면 GPU는 언제 더 나은지#

Google Cloud TPU 접근하기#

개인 사용자라면 현실적으로 뭘 골라야 할까#

마치며#