AI 가속기 교과서 : GPU vs TPU 설계철학

// 3줄 요약

AI 칩의 99% 싸움은 "계산"이 아니라 "데이터를 어디서 어떻게 옮기느냐"다. 텐서코어·저정밀도(FP4)·스크래치패드가 전부 이 데이터 이동 비용을 줄이려는 발버둥이다.
GPU(NVIDIA)는 "작은 연산기를 잘게 많이" 깔아 유연성을 사고, TPU(구글)는 "큰 행렬기를 굵게 몇 개" 세워 효율을 산다 — 같은 원리, 다른 입자 크기일 뿐이다.
투자 결론은 단순하다. AI 워크로드가 아직 안 굳었기 때문에 매달 바뀌는 모델을 가장 빨리 따라잡는 GPU+CUDA가 해자다. 이게 무너지는 시점은 "워크로드가 ASIC으로 굳어도 될 만큼 안정화될 때"다.

먼저 큰 그림 한 줄. 이 자료 전체를 관통하는 단 하나의 문장은 이것입니다 — "칩 설계는 한정된 면적(die)을 어디에 배분할 것인가의 싸움이다." 계산기에 줄까, 데이터 보관함에 줄까, 데이터 운반 회로에 줄까. 이 배분 철학의 차이가 곧 GPU와 TPU의 차이입니다.

Chapter 01

AI 칩의 가장 밑단

로직 게이트 → 행렬곱 → MAC, 모든 것은 곱하고 더하기다

아무리 거대한 AI 모델도 칩의 맨 밑에서는 0과 1을 다루는 단순한 회로(AND·OR·NOT 게이트)가 움직일 뿐입니다. 이 작은 0·1 계산을 엄청나게 많이 이어 붙여 큰 계산을 만들어냅니다.

핵심 연산 = 행렬곱(Matmul), 그 안의 기본 단위 = MAC

AI 칩이 하는 거의 모든 일은 행렬곱입니다. 그리고 행렬곱의 가장 안쪽 루프에 있는 진짜 기본 단위가 MAC(Multiply-Accumulate, 곱셈-누산)입니다. 두 수를 곱하고, 그 결과를 계속 더해서 쌓는 것이죠. 수식으로는 우리가 아는 그것입니다:

y = Wx + b　(입력 x에 가중치 W를 곱하고 편향 b를 더해 결과 y를 만든다)

MAC은 그냥 "곱한 거 장바구니에 계속 담기"입니다. 1×10 담고, 2×20 더 담고, 3×30 더 담아서 = 140. 칩이 하는 일은 이 장바구니 담기를 초당 수경(京) 번 반복하는 것뿐입니다. 똑똑한 게 아니라, 단순한 걸 미친 듯이 빠르게 하는 기계예요.

2×3 행렬 × 3×2 행렬 → 결과의 첫 칸 140이 만들어지는 과정

Chapter 02

왜 저정밀도(FP4) 연산이 중요한가

비트를 줄이면 회로는 제곱으로 작아지고, 데이터는 2배로 흐른다

숫자를 더 많은 비트로 표현할수록 계산 회로가 커집니다. 특히 곱셈 회로는 비트 수에 대해 대략 제곱(²)으로 커져요. 4비트×4비트는 16조합, 8비트×8비트는 64조합 — 비트는 2배인데 회로는 4배가 됩니다.

FP8 → FP4는 "글씨를 절반 크기로 줄이는 것"과 같습니다. 글자가 작아지면 (1) 쓰는 데 드는 잉크(=회로 면적·전력)가 줄고, (2) 같은 종이 한 장(=메모리 대역폭)에 2배 더 많이 적을 수 있어요. AI 추론은 "가중치를 메모리에서 읽어오는 속도"가 병목인데, FP4면 같은 통로로 2배 더 빨리 읽어옵니다.

한 가지 디테일 : 곱셈과 누산의 정밀도는 다르다

곱셈은 낮은 정밀도(FP4)로 해도 되지만, 누산(쌓기)은 더 높은 정밀도(FP8)로 가져가야 합니다. 이유는 두 가지:

구분	곱셈 (낮은 정밀도 OK)	누산 (높은 정밀도 필요)
값의 크기	입력 하나하나는 작은 수	4,096개를 다 더하면 누산값은 거대해짐 → 적은 비트로 표현 범위 부족
오차 전파	한 MAC 안에서 곱셈은 딱 한 번 → 오차도 1회	Z를 계속 갱신 → 작은 반올림 오차가 다음 계산의 출발점이 되어 누적

설계자의 진짜 결정: FP4용 MAC 회로와 FP8용 MAC 회로는 사실상 별개의 회로입니다. 한정된 die 면적에서 "FP4에 얼마, FP8에 얼마"를 배분하는 것이 칩 설계자의 핵심 선택입니다.

실제 스펙으로 확인 : B200 → B300의 "트랜지스터 몰빵"

// NVIDIA Blackwell 세대별 GPU 1개당 연산 성능 (PFLOPS)
지표	B200 (Blackwell)	B300 (Blackwell Ultra)	증분
FP4 성능	9 PFLOPS	15 PFLOPS	+67%
FP8 성능	4.5 PFLOPS	5 PFLOPS	+11%
FP4 / FP8 배율	2배	3배	—

💡 투자 포인트 — 칩 스펙은 "베팅의 흔적"이다

B200→B300으로 가며 새로 확보한 트랜지스터 예산을 거의 전부 FP4에 몰아줬습니다 (FP4 +67% vs FP8 +11%). 이건 엔비디아가 "다음 세대 워크로드는 MoE 모델 추론이 지배할 것"이라고 판단했다는 강력한 증거입니다. 칩 스펙 시트의 FP4/FP8 비율 변화를 추적하면, 엔비디아가 AI Labs의 모델 방향을 어떻게 읽고 있는지를 역으로 읽어낼 수 있습니다.

💡 경쟁구도 — FP4 Native 여부가 갈림길

Blackwell은 FP4를 하드웨어 네이티브로 구현한 첫 칩입니다. 반면 3Q27 양산 예정인 TPU v7과 Trainium3은 FP4를 네이티브 지원하지 않습니다(FP8까지만). 결과적으로:

지표	GB300 (NVIDIA)	TPU v7 (Google)
최대 연산	15 PFLOPS (FP4)	4.6 PFLOPS (FP8까지만)
전성비	10.71 TFLOPS/W	5.42 TFLOPS/W
칩당 전력	1,400W	850W

FP4 워크로드에서 전성비 기준 GB300이 약 2배 우수합니다. "추론을 잘한다"는 말은 단순히 추론 한 분야가 아니라, 6년간 쓰는 칩의 TCO 대비 성능에서 가장 중요한 전장을 선점했다는 의미로 읽어야 합니다.

Chapter 03

텐서코어는 왜 태어났나

코어 면적의 80~90%가 "계산"이 아니라 "데이터 나르기"에 쓰이고 있었다

텐서코어가 없던 시절(Volta 이전)의 GPU는 CPU와 똑같이 작동했습니다. 레지스터 파일(숫자 보관함)에서 숫자 3개를 꺼내(2개는 곱하고, 1개는 누산값) → 연산기(ALU)에서 MAC 한 뒤 → 다시 보관함에 써넣는 식이죠.

문제는 "꺼내고 넣는" 비용이었다

보관함의 특정 칸을 골라 연산기로 보내는 회로를 MUX(선택기)라고 합니다. 이 MUX의 비용을 세어보면 충격적입니다:

CUDA 프로그래머 눈에는 안 보이는 "데이터 이동"이 면적을 다 잡아먹고 있었다 → 텐서코어의 탄생 배경

해법 = 시스톨릭 어레이(Systolic Array)

곱셈-누산 "한 줄"만 하드웨어에 넣던 걸, 행렬-벡터 곱 "한 판 전체"를 하드웨어에 통째로 구워넣은 것이 텐서코어입니다. 레지스터를 한 번 꺼내올 때마다 훨씬 더 많은 계산을 하니, 데이터 이동은 줄이고 연산은 크게 늘렸습니다.

예전 방식은 "재료 하나 꺼내 → 요리 한 번 → 냉장고에 도로 넣기"를 반복하는 거였어요. 냉장고 들락날락이 요리보다 6배 더 오래 걸렸죠. 시스톨릭 어레이는 재료를 한 번에 잔뜩 꺼내 컨베이어벨트에 올려놓고 줄줄이 요리하는 방식입니다. 냉장고 왕복이 확 줄어듭니다.

다시 면적 배분 문제: 시스톨릭 어레이(연산기)를 크게 만들면 한 번에 많이 계산하지만 데이터를 공급할 보관함·배선도 그만큼 커야 합니다. 보관함을 키우면 유연하지만 실제 연산기 면적이 줄어요. 결국 또 "한정된 면적을 어디에 줄 것인가"의 문제로 돌아옵니다.

Chapter 04

칩이 '박자'를 맞추는 방법

Clock · Pipeline · Latency ↔ Throughput

칩 하나에 트랜지스터가 1,000억 개. 이 많은 부품이 동시에 일하려면 박자가 필요합니다. 보통 약 1ns마다 모든 회로가 잠깐 멈췄다 동시에 다음 동작으로 넘어가는데, 이 한 박자가 클럭 사이클입니다. 1GHz = 초당 10억 번 박자.

클럭은 무조건 빠른 게 좋은가? → 함정이 있다

모든 계산은 다음 박자가 울리기 전에 끝나 있어야 합니다. 안 끝났는데 박자가 울리면 엉뚱한 중간값이 저장돼요. 그래서 계산 회로가 길면 클럭을 못 올립니다. 가장 느린 경로를 critical path(임계경로)라 부르고, 이걸 잘 쪼개는 게(timing closure) 클럭 속도를 좌우합니다.

💡 인사이트 — 같은 TSMC 3nm라도 클럭이 다른 이유

같은 공정을 써도 어떤 칩은 클럭이 높고 어떤 칩은 낮습니다. 이건 공정만의 문제가 아니라 설계 단계의 timing closure 역량 차이입니다. "같은 파운드리 = 같은 성능"이라는 단순 가정이 왜 틀리는지 설명해주는 대목입니다.

핵심 공식 : Throughput의 분해

Throughput = (클럭 한 번에 처리하는 작업량) × (초당 클럭 수)

앞 항은 면적 효율(로직에 얼마나 면적을 썼나), 뒤 항은 클럭 속도입니다. 클럭만 올리려고 면적을 죄다 레지스터에 써버리면 앞 항이 쪼그라들어 전체 throughput은 오히려 나빠집니다.

추론편의 batch size와 똑같은 얘기예요. batch를 작게 잡으면 한 사용자는 토큰을 빨리 받지만, 한 시간 동안 전체가 받는 토큰 수는 줄어듭니다. "한 명 빠르게(latency)" vs "전체 많이(throughput)"의 트레이드오프 — 칩 설계도 정확히 같은 긴장 위에 있습니다.

Chapter 05

FPGA vs ASIC

사실 같은 개념 모델이다 — 갈리는 건 오직 경제성

FPGA와 ASIC은 둘 다 기본 로직 게이트를 배선으로 연결한 것입니다. FPGA로 표현 가능한 회로는 ASIC으로도 전부 표현 가능합니다. 그리고 같은 회로라면 ASIC이 FPGA보다 10배 넘게 싸고 전력 효율도 좋습니다. 그런데도 FPGA 시장이 존재하는 이유는 단 하나 — 초기 비용입니다.

구분	FPGA	ASIC
첫 칩 비용	약 $10,000	약 $30,000,000 (tape-out·NRE 포함)
단위당 비용	비쌈 (10배 면적)	매우 쌈
전력 효율	낮음	높음
설계 변경	현장에서 재프로그래밍 가능	공장에서 고정, 변경 불가
유리한 상황	설계를 자주(매달) 바꿔야 할 때	워크로드가 굳어 대량생산할 때

소량·잦은 변경 = FPGA / 대량·고정 = ASIC. 대표적 FPGA 사용처는 전략을 수시로 바꿔야 하는 HFT다.

💡 이 그래프가 곧 GPU vs TPU 논쟁의 축소판이다

FPGA(유연·고비용) vs ASIC(고정·저비용)의 트레이드오프는 그대로 GPU(유연) vs TPU(고정)로 확장됩니다. 핵심 질문은 항상 같아요: "이 워크로드는 이미 굳었는가, 아직 매달 바뀌는가?" 굳었다면 고정형(ASIC/TPU)이 이기고, 아직 변한다면 유연형(FPGA/GPU)이 이깁니다.

Chapter 06

CPU vs TPU : Cache vs Scratchpad

"하드웨어가 알아서" vs "소프트웨어가 명령해서"

CPU는 빠르지만 언제 끝날지 모릅니다(비결정적). 범용 컴퓨터라서 웹브라우저·엑셀·게임 뭐가 들어올지 모른 채 평균 성능을 높이려고 Cache와 Branch Predictor를 붙였기 때문입니다.

Cache가 CPU를 비결정적으로 만든 범인

Cache는 자주 쓰는 데이터를 담아두는 고속 메모리입니다. 있으면(Cache hit) 바로 쓰고, 없으면(Cache miss) 100배 느린 DDR까지 가야 해요. 문제는 같은 코드를 돌려도 그때그때 hit/miss가 달라진다는 것. 그래서 "정확히 몇 클럭 뒤에 끝난다"를 보장 못 합니다.

AI 칩의 선택 : Cache 대신 Scratchpad

AI 칩은 "하드웨어가 알아서 결정"하던 걸 "소프트웨어/컴파일러가 데이터 이동을 명시적으로 지휘"하도록 바꿔 결정론적으로 만들었습니다. 이게 Scratchpad Memory입니다.

// 핵심 대조표
구분	CPU Cache	TPU Scratchpad
데이터 위치 결정	HW가 알아서 결정	SW가 명시적으로 결정
명령 방식	"메모리에서 읽어라" (알아서 찾음)	"Scratchpad에서 읽어라 / HBM에서 읽어라" (콕 집음)
장점	범용 프로그램에서 성능 우수	데이터 이동을 예측하기 쉬움 (결정론적)
단점	hit/miss에 따라 지연시간 들쭉날쭉	프로그래밍/컴파일러 최적화가 매우 중요
적합한 작업	범용 컴퓨팅	대규모 행렬곱 (AI/ML)

Cache는 "알아서 척척 챙겨주는 비서"입니다. 편하지만 그날그날 컨디션 따라 속도가 달라요. Scratchpad는 "내가 직접 짠 동선표대로 움직이는 로봇"입니다. 짜는 게 귀찮지만(=컴파일러 최적화 부담) 매번 정확히 같은 시간에 끝납니다. AI처럼 똑같은 패턴(행렬곱)을 반복하는 일엔 후자가 압도적으로 유리합니다.

한 줄 정리

FPGA	정해진 데이터 경로를 예측 가능하게 처리하는 칩
CPU	복잡한 명령어 흐름을 잘 처리하는 칩 (if문, 분기 많음)
GPU / TPU	대규모 병렬 연산을 잘 처리하는 칩

왜 CPU는 코어가 적은가: CPU 코어 면적의 대부분은 ALU(연산기)가 아니라 Cache·Register File·Control Unit·Branch Predictor가 차지합니다. 특히 Branch Predictor — "다음에 어느 if로 갈지" 미리 예측해 먼저 실행하는 장치 — 가 GPU/TPU엔 거의 없는, CPU만의 특징입니다.

Chapter 07

GPU vs TPU : 같은 원리, 다른 '입자 크기'

작게 많이(GPU) vs 크게 몇 개(TPU)

드디어 본론입니다. 둘 다 행렬곱에 능하고 AI에 쓰입니다. 차이는 칩 내부 구성 철학 — 정확히는 연산 유닛의 "입자 크기"입니다.

"GPU는 사실 아주 작은 TPU 여러 개를 칩 전체에 타일처럼 깐 것에 가깝다"

// 설계 철학 정면 비교
구분	GPU (NVIDIA)	TPU (Google)
구성	작은 SM을 칩 전체에 타일처럼 多수 배치	큰 행렬 유닛(MXU) 몇 개 + 중앙 벡터 유닛
입자 크기	잘게 (fine-grained)	굵게 (coarse-grained)
최대 장점	유연성 — 작업을 잘게 쪼개 여러 SM에 배분	효율 — 큰 행렬곱에서 부가구조 오버헤드 최소
약점	SM마다 레지스터·스케줄러 중복 → 순수 행렬곱 오버헤드	불규칙·다양한 작업엔 취약
유리한 워크로드	불규칙한 흐름, MoE 통신 등	정형화된 대규모 행렬곱

GPU는 작은 분식집 100개를 시내 곳곳에 깐 거예요. 주문이 제각각이어도 가까운 가게가 유연하게 처리하죠. 단, 가게마다 주방·계산대(부가구조)가 중복됩니다. TPU는 거대한 중앙 급식소 2개입니다. 똑같은 메뉴(대규모 행렬곱)를 대량으로 찍어낼 땐 압도적이지만, 손님마다 다른 특별주문(불규칙 작업)엔 약합니다.

중요한 사실: Volta 이후로는 GPU가 텐서코어로 가득 찼기 때문에, 연산 코어 자체만 놓고 보면 GPU와 TPU는 사실상 똑같습니다. 진짜 차이는 "그 연산기를 얼마나 잘게/굵게 묶고, 주변을 어떻게 구성했나"의 입자 크기 철학입니다.

· · ·

Chapter 08 · 결론

투자 결론 : CUDA 해자의 진짜 의미

"못 벗어난다"가 아니라 "가장 빨리 된다"

드와르케시 파텔이 젠슨황에게 던진 질문은 이거였습니다: "AI가 대부분 행렬곱이라면, 더 단순하고 최적화된 TPU가 GPU보다 유리한 것 아니냐?" 젠슨황의 답: "AI는 행렬곱만이 아니다."

논쟁의 핵심은 '변화의 속도'다

새로운 attention, Hybrid-SSM, MoE, diffusion+autoregressive 결합, 길어지는 컨텍스트, KV cache, all-to-all 통신, 서빙 최적화 기법 — 이 모든 게 계속 바뀝니다. 모델 아키텍처가 바뀌면 커널이 바뀌고, 커널이 바뀌면 메모리 레이아웃과 스케줄링이 바뀝니다. 워크로드가 아직 안 굳었기 때문에 고정된 ASIC보다 프로그래밍 가능한 시스템(GPU)이 더 강합니다.

💡 핵심 — CUDA 해자의 정의가 진화했다

과거의 해자: "CUDA가 아니면 못 한다" (잠금·종속)

현재의 해자: "새로운 것을 가장 빨리 만들고, 가장 빨리 디버깅하고, 가장 넓게 배포할 수 있다" (속도)

프론티어 연구에서는 새 아이디어를 얼마나 빨리 실험하고 실패 원인을 빨리 좁히느냐가 전부입니다. vLLM·SGLang·Triton·RL 프레임워크처럼 새 스택이 계속 쏟아지는 환경에선 검증된 생태계(설치 기반·드라이버·라이브러리)가 강력한 기준점이 됩니다.

💡 진짜 변수 — CEO 두 명의 실행력 경쟁

기술 비교보다 더 중요한 건 젠슨황 vs 순다르 피차이의 인사이트·실행력 경쟁입니다. 모델이 어디로 갈지 미리 읽고 공급망을 짜고 HW-SW를 준비해두는 능력 — 그리고 미성숙한 기술 돌파구를 누가 더 빨리 상용화하느냐 — 가 곧 해자입니다. 젠슨황은 앤디 그로브의 "편집광만이 살아남는다"를 가장 잘 실천하는 CEO로 평가됩니다.

그래서, 우리가 추적해야 할 단 하나의 지표

"AI 워크로드는 언제 안정화되는가?"

이 질문에 대한 답이 GPU↔TPU 점유율의 장기 균형을 결정합니다. 워크로드가 굳을수록(=모델 아키텍처 혁신 속도가 둔화될수록) TPU·Trainium 같은 ASIC형 가속기의 비용 우위가 빛을 발하고, 반대로 혁신이 계속 가속될수록 GPU+CUDA의 유연성 해자가 강해집니다. FP4 네이티브 격차, B300의 트랜지스터 몰빵 방향, 신규 서빙 스택의 등장 빈도 — 이 세 가지가 현재 "변화 속도"를 읽는 실전 프록시입니다.

· · ·

Chapter 09 · 2026 업데이트

현실 점검 : TPU v8t / v8i가 교재를 깬 곳

Google Cloud Next 2026 (4/22) — 이론은 맞았고, 스냅샷은 갱신됐다

이 챕터의 목적: 앞 8개 챕터는 Reiner Pope(MatX CEO) 인터뷰 기반의 원리 자료입니다. 원리는 시간이 지나도 안 변하지만, "TPU는 FP4를 못 한다" 같은 특정 스펙 주장은 세대가 바뀌면 깨집니다. 2026년 4월 구글이 발표한 8세대 TPU(v8t/v8i)를 대입해, 무엇이 그대로 맞았고 무엇이 갱신됐는지를 검증합니다.

3줄 요약 (이 챕터)

// Chapter 9 TL;DR

구글이 8세대에서 TPU를 train용(v8t '선피시')과 inference용(v8i '제브라피시')으로 물리적으로 쪼갰다. 과거 suffix 변형이 아니라 ground-up 별개 설계 — "범용 실리콘의 종말" 신호.
앞 교재의 "TPU는 FP4 네이티브 미지원" 명제가 무너졌다. v8t는 FP4 네이티브를 도입해 MXU throughput 2배. v7→v8t 한 세대 만에 NVIDIA와의 핵심 격차를 메웠다.
v8i는 3D Torus를 버리고 Boardfly(Dragonfly 계열)로 갈아탔다. = "MoE·추론 all-to-all 통신"이라는 워크로드가 ASIC으로 굳혀도 될 만큼 안정화됐다는 신호. 앞 교재 챕터 8의 "변화 속도" 질문에 구글이 내놓은 답.

먼저 큰 그림 : 8세대 = "두 개의 칩" 전략

구글은 사전훈련·후처리·실시간 서빙의 요구가 갈라졌다(diverged)고 보고, 하나의 범용 TPU 대신 두 개의 전용 시스템을 냈습니다. 둘 다 Arm 기반 Axion CPU를 헤더로 붙여 호스트 병목(데이터 준비 지연)을 제거했습니다.

// TPU 8t vs 8i 한눈에 (출처: Google Cloud 공식 deep dive)
항목	TPU 8t (Sunfish · 훈련)	TPU 8i (Zebrafish · 추론)
주 워크로드	대규모 사전훈련, 임베딩	샘플링·서빙·추론(reasoning)
네트워크 토폴로지	3D Torus (검증된 방식 유지)	Boardfly (신규)
특화 블록	SparseCore (임베딩) + LLM Decoder Engine	CAE (Collectives Acceleration Engine)
HBM 용량	216 GB	288 GB
온칩 SRAM (Vmem)	128 MB	384 MB (3배)
FP4 피크	12.6 PFLOPS	10.1 PFLOPS
HBM 대역폭	6,528 GB/s	8,601 GB/s (~1.3배)
vs Ironwood(v7) 가성비	훈련 ~2.7배	추론 +80%

💡 유레카 1 — "GPU=유연 vs TPU=고정" 이분법을 칩 분리로 우회

앞 교재 챕터 7~8의 핵심 긴장은 "하나의 칩으로 train과 inference, 정형과 불규칙을 다 커버해야 하니 TPU의 고정성이 약점"이라는 것이었습니다. 구글의 답은 아예 칩을 둘로 쪼개는 것입니다. 각 칩이 자기 워크로드에만 특화되니, "범용성을 위한 타협"이라는 ASIC의 고질병을 회피합니다.

투자 함의: 이건 NVIDIA의 "하나의 유연한 GPU로 다 한다"는 철학과 정면으로 갈리는 베팅입니다. 워크로드가 train/inference로 명확히 분리·안정화될수록 구글식 분리 전략의 가성비가 빛나고, 계속 뒤섞이고 빠르게 변할수록 NVIDIA의 단일 유연 플랫폼이 유리합니다. 둘의 우열은 결국 "워크로드 안정화 속도"가 결정한다는 챕터 8 결론과 정확히 같은 축입니다.

💡 유레카 2 — 앞 교재의 FP4 명제는 "v7 스냅샷"이었다 (이미 갱신됨)

원래 교재는 "TPU v7/Trainium3은 FP4 네이티브 미지원 → 전성비 GB300이 2배"라고 했습니다. v8t는 이 약점을 정확히 정조준해 FP4 네이티브를 도입, MXU throughput을 2배로 올리고 "비트당 파라미터를 줄여 에너지 집약적 데이터 이동을 최소화"한다고 명시합니다. 챕터 2의 "FP4 = 데이터 이동 비용 절감" 논리를 구글이 그대로 채택한 셈입니다.

FP4 네이티브 지원	앞 교재(원리편) 기준	2026 현실 (v8 세대)
NVIDIA	Blackwell 네이티브 (첫 HW)	유지
Google TPU	v7 미지원 (FP8까지)	v8t/v8i 네이티브 지원 (격차 해소)

교훈: "원리"와 "특정 세대의 스펙 주장"을 구분해야 합니다. 원리(저정밀도가 데이터 이동을 줄인다)는 영구히 맞지만, "누가 지원하느냐"는 분기마다 추적해야 할 변수입니다. 단 — 절대 FLOPS는 여전히 GB300(15 PFLOPS) > v8t(12.6) > v8i(10.1)로 NVIDIA가 칩당 우위. 구글의 무기는 칩당 성능이 아니라 클러스터 단위 goodput입니다.

Virgo Network : 챕터 4의 "Throughput vs Latency"가 데이터센터 규모로 확장된 것

v8t의 scale-out 패브릭이 Virgo입니다. 첨부 다이어그램(SemiAnalysis)의 구조를 교재 용어로 해부하면:

// Virgo Network 스펙 해부
항목	값	교재 관점 해석
최대 칩 수	134,400 TPU 8t (단일 패브릭)	JAX·Pathways로 멀티사이트 시 100만+ 칩까지
Bisection BW	47 Pbps (non-blocking)	전체 토큰 throughput을 떠받치는 '굵은 파이프'
토폴로지	flat 2-layer (L1↔L2)	high-radix 스위치로 계층(tier)을 줄여 latency↓
슈퍼팟	9,600칩 (3D Torus ICI) × 14개	팟 내부는 챕터 6의 '결정론적' 이웃 통신
세대 향상	가속기당 BW 4배, latency 40%↓, ICI 2배	면적 효율 + 클럭(=BW) 양쪽 다 키운 케이스
non-blocking 비결	L1↔L2 일부 링크 2배 증설	병목 경로(critical path)를 의도적으로 보강

팟 내부 = 3D Torus(결정론적 이웃 통신) / 팟 간 = 2-layer 평면 패브릭. 동·서(east-west)는 Virgo, 남·북(north-south)은 Jupiter가 담당.

Boardfly : 챕터 7 "TPU는 MoE에 약하다"를 토폴로지로 정면 돌파

여기가 가장 인사이트 있는 대목입니다. 앞 교재 챕터 7에서 "작업이 불규칙하고 all-to-all 통신이 많은 MoE 추론 같은 건 GPU식 구조가 더 유리"라고 했었죠. 구글의 v8i가 정확히 이 약점을 인정하고, 추론 전용 칩에서 3D Torus를 버렸습니다.

3D Torus는 "바둑판처럼 옆집끼리만 손잡은 마을"입니다. 이웃과는 빠르지만, 반대편 끝 집까지 가려면 여러 집을 거쳐야 해요(1024칩이면 최대 16홉). 훈련(이웃끼리 dense 통신)엔 좋지만, MoE 추론은 아무 집이나 갑자기 통화해야 하는데(all-to-all) 그때마다 16번 거치면 느립니다. Boardfly는 마을 간 직통 광케이블(OCS)을 깔아 최대 7홉으로 줄였습니다.

v8i는 BB→Group→Pod 계층 구조. 4칩 ring을 8보드 그룹으로 묶고, 36그룹을 OCS(광 서킷 스위치)로 연결해 최대 7홉 보장.

💡 유레카 3 — 토폴로지 교체 = "워크로드가 굳었다"는 가장 강력한 신호

챕터 5·8의 FPGA/ASIC 논리를 떠올려보세요: 워크로드가 굳어야 고정형(ASIC) 투자가 정당화됩니다. 구글이 추론 전용 칩에 완전히 새 토폴로지(Boardfly)를 tape-out 비용 감수하고 깔았다는 것은, "MoE·reasoning의 all-to-all 통신 패턴이 이제 충분히 안정적이어서 하드웨어로 박제해도 된다"고 판단했다는 뜻입니다. 추론 워크로드의 성숙을 베팅한 거죠.

광학(Optics) 투자 연결고리: Boardfly의 핵심은 그룹 간 장거리 광 링크 + OCS입니다. 추론 패브릭이 torus(구리 주도)에서 dragonfly(광 주도)로 가면 트랜시버·OCS 수요 곡선이 달라집니다 — 광학 밸류체인 thesis와 직결됩니다.

종합 : 무엇이 맞았고 무엇이 갱신됐나

// 앞 교재(원리편) ↔ 2026 현실 정합성 점검
앞 교재의 명제	판정	근거
저정밀도(FP4)가 데이터 이동을 줄여 추론 핵심	✓ 그대로 맞음	v8t가 "에너지 집약적 데이터 이동 최소화" 명분으로 FP4 채택
면적 배분이 칩 설계의 본질	✓ 그대로 맞음	v8i의 SRAM 3배·CAE 추가 = KV캐시 온칩 배분 선택
TPU는 정형 행렬곱 강, 불규칙 all-to-all 약	✓ 맞음 (구글이 인정)	그래서 추론칩 v8i는 torus를 버리고 Boardfly로 교체
TPU는 FP4 네이티브 미지원	✗ 갱신됨	v7 스냅샷. v8t/v8i 네이티브 지원으로 격차 해소
하나의 유연한 칩 vs 하나의 고정 칩 구도	△ 재정의됨	구글이 칩을 train/inference로 분리해 이분법 자체를 우회
승부는 '워크로드 변화 속도'가 결정	✓✓ 더 강해짐	v8i 토폴로지 교체 = 추론 워크로드 안정화 베팅의 실물 증거

최종 투자 프레임 (갱신판): 챕터 8에서 "추적할 단 하나의 지표 = 워크로드 안정화 속도"라 했습니다. v8 발표가 준 새 데이터포인트는 — "훈련은 아직 3D Torus(=안 굳음, NVIDIA 유연성 유효), 추론은 Boardfly로 박제(=굳기 시작, ASIC 가성비 발휘)". 즉 전선이 둘로 갈렸습니다. 훈련 시장에선 NVIDIA의 CUDA 유연성 해자가 여전히 강하고, 추론 시장은 ASIC(TPU 8i·Trainium 등)이 가성비로 침투하기 시작하는 국면으로 읽는 것이 합리적입니다. Tom's Hardware가 짚었듯 구글도 같은 Virgo 위에서 Vera Rubin NVL72를 굴린다 — TPU는 NVIDIA의 대체재가 아니라 워크로드별 보완재 포지셔닝입니다.

출처: Google Cloud 공식 「TPU 8t/8i technical deep dive」(2026.04.22), 「Introducing Virgo Network」, Tom's Hardware, SemiAnalysis 다이어그램, DCD. 가격·성능 수치는 발표 시점 구글 자체 주장이며 독립 검증 전임에 유의.

부록

용어 사전

팀원 공유용 — 한 줄로 끝내는 핵심 정의

MAC (Multiply-Accumulate): 곱하고 더해서 쌓는 연산. AI 칩 계산의 가장 작은 기본 단위.
Matmul (행렬곱): AI 칩이 하는 핵심 연산. y = Wx + b의 본체.
FP4 / FP8: 숫자를 4비트/8비트로 표현. 비트가 적을수록 회로↓·전력↓·데이터 2배. Blackwell이 FP4 네이티브 첫 칩.
Tensor Core: 행렬곱 한 판을 통째로 하드웨어에 구워넣은 연산 블록. 데이터 이동 비용을 줄이려 탄생.
Systolic Array: 텐서코어/MXU의 실체. 데이터가 컨베이어벨트처럼 흐르며 곱셈-누산되는 격자 구조.
Critical Path: 칩에서 가장 느린 신호 경로. 이게 전체 클럭 속도의 상한을 결정.
NRE / Tape-out: ASIC 첫 칩을 찍기 위한 일회성 설계·제작 비용($30M 규모). FPGA엔 거의 없음.
Cache (CPU): HW가 알아서 자주 쓰는 데이터를 보관. 빠르지만 hit/miss로 인해 시간 예측 불가(비결정적).
Scratchpad (TPU): SW가 데이터 위치를 명시적으로 지휘하는 고속 메모리. 결정론적 → 대규모 행렬곱에 유리.
Branch Predictor: "다음 if가 어디로 갈지" 미리 예측해 먼저 실행하는 CPU 장치. GPU/TPU엔 거의 없음.
SM (Streaming Multiprocessor): GPU의 기본 빌딩블록. 작은 연산공장이 칩 전체에 타일처럼 깔림.
MXU (Matrix Unit): TPU의 큰 행렬 연산 유닛. 굵직하게 몇 개만 두어 오버헤드를 줄임.
Virgo Network: TPU 8t용 scale-out 패브릭. flat 2-layer non-blocking, 134,400칩 · 47Pbps. east-west 담당.
Jupiter Network: 구글 DCN. north-south(스토리지·컴퓨트 접근) 담당. OCS(Apollo) 기반, 멀티 데이터센터 WAN으로 확장.
3D Torus: 칩을 격자+링으로 잇는 ICI 토폴로지. 이웃 통신엔 효율적이나 all-to-all은 홉이 많음. v8t가 채택(훈련).
Boardfly: v8i 추론 전용 신규 토폴로지(Dragonfly 계열+OCS). 1,024칩 기준 지름을 16홉→7홉(−56%)으로 단축.
SparseCore: v8t의 임베딩 룩업(불규칙 메모리 접근) 전용 가속기. MXU의 zero-op 병목을 방지.
CAE (Collectives Accel. Engine): v8i 신규 블록. auto-regressive 디코딩의 reduce/sync를 5배 가속해 추론 처리량↑.
OCS (Optical Circuit Switch): 광 경로를 물리적으로 바꿔 연결하는 스위치(구글 Apollo). Boardfly·Jupiter의 장거리 연결 핵심.