로직 게이트 하나부터 NVIDIA와 TPU의 설계 철학까지 —
"왜 그렇게 되는지"를 바닥부터 쌓아 올리는 자료
먼저 큰 그림 한 줄. 이 자료 전체를 관통하는 단 하나의 문장은 이것입니다 — "칩 설계는 한정된 면적(die)을 어디에 배분할 것인가의 싸움이다." 계산기에 줄까, 데이터 보관함에 줄까, 데이터 운반 회로에 줄까. 이 배분 철학의 차이가 곧 GPU와 TPU의 차이입니다.
아무리 거대한 AI 모델도 칩의 맨 밑에서는 0과 1을 다루는 단순한 회로(AND·OR·NOT 게이트)가 움직일 뿐입니다. 이 작은 0·1 계산을 엄청나게 많이 이어 붙여 큰 계산을 만들어냅니다.
AI 칩이 하는 거의 모든 일은 행렬곱입니다. 그리고 행렬곱의 가장 안쪽 루프에 있는 진짜 기본 단위가 MAC(Multiply-Accumulate, 곱셈-누산)입니다. 두 수를 곱하고, 그 결과를 계속 더해서 쌓는 것이죠. 수식으로는 우리가 아는 그것입니다:
y = Wx + b (입력 x에 가중치 W를 곱하고 편향 b를 더해 결과 y를 만든다)
MAC은 그냥 "곱한 거 장바구니에 계속 담기"입니다. 1×10 담고, 2×20 더 담고, 3×30 더 담아서 = 140. 칩이 하는 일은 이 장바구니 담기를 초당 수경(京) 번 반복하는 것뿐입니다. 똑똑한 게 아니라, 단순한 걸 미친 듯이 빠르게 하는 기계예요.
숫자를 더 많은 비트로 표현할수록 계산 회로가 커집니다. 특히 곱셈 회로는 비트 수에 대해 대략 제곱(²)으로 커져요. 4비트×4비트는 16조합, 8비트×8비트는 64조합 — 비트는 2배인데 회로는 4배가 됩니다.
FP8 → FP4는 "글씨를 절반 크기로 줄이는 것"과 같습니다. 글자가 작아지면 (1) 쓰는 데 드는 잉크(=회로 면적·전력)가 줄고, (2) 같은 종이 한 장(=메모리 대역폭)에 2배 더 많이 적을 수 있어요. AI 추론은 "가중치를 메모리에서 읽어오는 속도"가 병목인데, FP4면 같은 통로로 2배 더 빨리 읽어옵니다.
곱셈은 낮은 정밀도(FP4)로 해도 되지만, 누산(쌓기)은 더 높은 정밀도(FP8)로 가져가야 합니다. 이유는 두 가지:
| 구분 | 곱셈 (낮은 정밀도 OK) | 누산 (높은 정밀도 필요) |
|---|---|---|
| 값의 크기 | 입력 하나하나는 작은 수 | 4,096개를 다 더하면 누산값은 거대해짐 → 적은 비트로 표현 범위 부족 |
| 오차 전파 | 한 MAC 안에서 곱셈은 딱 한 번 → 오차도 1회 | Z를 계속 갱신 → 작은 반올림 오차가 다음 계산의 출발점이 되어 누적 |
| 지표 | B200 (Blackwell) | B300 (Blackwell Ultra) | 증분 |
|---|---|---|---|
| FP4 성능 | 9 PFLOPS | 15 PFLOPS | +67% |
| FP8 성능 | 4.5 PFLOPS | 5 PFLOPS | +11% |
| FP4 / FP8 배율 | 2배 | 3배 | — |
B200→B300으로 가며 새로 확보한 트랜지스터 예산을 거의 전부 FP4에 몰아줬습니다 (FP4 +67% vs FP8 +11%). 이건 엔비디아가 "다음 세대 워크로드는 MoE 모델 추론이 지배할 것"이라고 판단했다는 강력한 증거입니다. 칩 스펙 시트의 FP4/FP8 비율 변화를 추적하면, 엔비디아가 AI Labs의 모델 방향을 어떻게 읽고 있는지를 역으로 읽어낼 수 있습니다.
Blackwell은 FP4를 하드웨어 네이티브로 구현한 첫 칩입니다. 반면 3Q27 양산 예정인 TPU v7과 Trainium3은 FP4를 네이티브 지원하지 않습니다(FP8까지만). 결과적으로:
| 지표 | GB300 (NVIDIA) | TPU v7 (Google) |
|---|---|---|
| 최대 연산 | 15 PFLOPS (FP4) | 4.6 PFLOPS (FP8까지만) |
| 전성비 | 10.71 TFLOPS/W | 5.42 TFLOPS/W |
| 칩당 전력 | 1,400W | 850W |
FP4 워크로드에서 전성비 기준 GB300이 약 2배 우수합니다. "추론을 잘한다"는 말은 단순히 추론 한 분야가 아니라, 6년간 쓰는 칩의 TCO 대비 성능에서 가장 중요한 전장을 선점했다는 의미로 읽어야 합니다.
텐서코어가 없던 시절(Volta 이전)의 GPU는 CPU와 똑같이 작동했습니다. 레지스터 파일(숫자 보관함)에서 숫자 3개를 꺼내(2개는 곱하고, 1개는 누산값) → 연산기(ALU)에서 MAC 한 뒤 → 다시 보관함에 써넣는 식이죠.
보관함의 특정 칸을 골라 연산기로 보내는 회로를 MUX(선택기)라고 합니다. 이 MUX의 비용을 세어보면 충격적입니다:
곱셈-누산 "한 줄"만 하드웨어에 넣던 걸, 행렬-벡터 곱 "한 판 전체"를 하드웨어에 통째로 구워넣은 것이 텐서코어입니다. 레지스터를 한 번 꺼내올 때마다 훨씬 더 많은 계산을 하니, 데이터 이동은 줄이고 연산은 크게 늘렸습니다.
예전 방식은 "재료 하나 꺼내 → 요리 한 번 → 냉장고에 도로 넣기"를 반복하는 거였어요. 냉장고 들락날락이 요리보다 6배 더 오래 걸렸죠. 시스톨릭 어레이는 재료를 한 번에 잔뜩 꺼내 컨베이어벨트에 올려놓고 줄줄이 요리하는 방식입니다. 냉장고 왕복이 확 줄어듭니다.
칩 하나에 트랜지스터가 1,000억 개. 이 많은 부품이 동시에 일하려면 박자가 필요합니다. 보통 약 1ns마다 모든 회로가 잠깐 멈췄다 동시에 다음 동작으로 넘어가는데, 이 한 박자가 클럭 사이클입니다. 1GHz = 초당 10억 번 박자.
모든 계산은 다음 박자가 울리기 전에 끝나 있어야 합니다. 안 끝났는데 박자가 울리면 엉뚱한 중간값이 저장돼요. 그래서 계산 회로가 길면 클럭을 못 올립니다. 가장 느린 경로를 critical path(임계경로)라 부르고, 이걸 잘 쪼개는 게(timing closure) 클럭 속도를 좌우합니다.
같은 공정을 써도 어떤 칩은 클럭이 높고 어떤 칩은 낮습니다. 이건 공정만의 문제가 아니라 설계 단계의 timing closure 역량 차이입니다. "같은 파운드리 = 같은 성능"이라는 단순 가정이 왜 틀리는지 설명해주는 대목입니다.
Throughput = (클럭 한 번에 처리하는 작업량) × (초당 클럭 수)
앞 항은 면적 효율(로직에 얼마나 면적을 썼나), 뒤 항은 클럭 속도입니다. 클럭만 올리려고 면적을 죄다 레지스터에 써버리면 앞 항이 쪼그라들어 전체 throughput은 오히려 나빠집니다.
추론편의 batch size와 똑같은 얘기예요. batch를 작게 잡으면 한 사용자는 토큰을 빨리 받지만, 한 시간 동안 전체가 받는 토큰 수는 줄어듭니다. "한 명 빠르게(latency)" vs "전체 많이(throughput)"의 트레이드오프 — 칩 설계도 정확히 같은 긴장 위에 있습니다.
FPGA와 ASIC은 둘 다 기본 로직 게이트를 배선으로 연결한 것입니다. FPGA로 표현 가능한 회로는 ASIC으로도 전부 표현 가능합니다. 그리고 같은 회로라면 ASIC이 FPGA보다 10배 넘게 싸고 전력 효율도 좋습니다. 그런데도 FPGA 시장이 존재하는 이유는 단 하나 — 초기 비용입니다.
| 구분 | FPGA | ASIC |
|---|---|---|
| 첫 칩 비용 | 약 $10,000 | 약 $30,000,000 (tape-out·NRE 포함) |
| 단위당 비용 | 비쌈 (10배 면적) | 매우 쌈 |
| 전력 효율 | 낮음 | 높음 |
| 설계 변경 | 현장에서 재프로그래밍 가능 | 공장에서 고정, 변경 불가 |
| 유리한 상황 | 설계를 자주(매달) 바꿔야 할 때 | 워크로드가 굳어 대량생산할 때 |
FPGA(유연·고비용) vs ASIC(고정·저비용)의 트레이드오프는 그대로 GPU(유연) vs TPU(고정)로 확장됩니다. 핵심 질문은 항상 같아요: "이 워크로드는 이미 굳었는가, 아직 매달 바뀌는가?" 굳었다면 고정형(ASIC/TPU)이 이기고, 아직 변한다면 유연형(FPGA/GPU)이 이깁니다.
CPU는 빠르지만 언제 끝날지 모릅니다(비결정적). 범용 컴퓨터라서 웹브라우저·엑셀·게임 뭐가 들어올지 모른 채 평균 성능을 높이려고 Cache와 Branch Predictor를 붙였기 때문입니다.
Cache는 자주 쓰는 데이터를 담아두는 고속 메모리입니다. 있으면(Cache hit) 바로 쓰고, 없으면(Cache miss) 100배 느린 DDR까지 가야 해요. 문제는 같은 코드를 돌려도 그때그때 hit/miss가 달라진다는 것. 그래서 "정확히 몇 클럭 뒤에 끝난다"를 보장 못 합니다.
AI 칩은 "하드웨어가 알아서 결정"하던 걸 "소프트웨어/컴파일러가 데이터 이동을 명시적으로 지휘"하도록 바꿔 결정론적으로 만들었습니다. 이게 Scratchpad Memory입니다.
| 구분 | CPU Cache | TPU Scratchpad |
|---|---|---|
| 데이터 위치 결정 | HW가 알아서 결정 | SW가 명시적으로 결정 |
| 명령 방식 | "메모리에서 읽어라" (알아서 찾음) | "Scratchpad에서 읽어라 / HBM에서 읽어라" (콕 집음) |
| 장점 | 범용 프로그램에서 성능 우수 | 데이터 이동을 예측하기 쉬움 (결정론적) |
| 단점 | hit/miss에 따라 지연시간 들쭉날쭉 | 프로그래밍/컴파일러 최적화가 매우 중요 |
| 적합한 작업 | 범용 컴퓨팅 | 대규모 행렬곱 (AI/ML) |
Cache는 "알아서 척척 챙겨주는 비서"입니다. 편하지만 그날그날 컨디션 따라 속도가 달라요. Scratchpad는 "내가 직접 짠 동선표대로 움직이는 로봇"입니다. 짜는 게 귀찮지만(=컴파일러 최적화 부담) 매번 정확히 같은 시간에 끝납니다. AI처럼 똑같은 패턴(행렬곱)을 반복하는 일엔 후자가 압도적으로 유리합니다.
| FPGA | 정해진 데이터 경로를 예측 가능하게 처리하는 칩 |
| CPU | 복잡한 명령어 흐름을 잘 처리하는 칩 (if문, 분기 많음) |
| GPU / TPU | 대규모 병렬 연산을 잘 처리하는 칩 |
드디어 본론입니다. 둘 다 행렬곱에 능하고 AI에 쓰입니다. 차이는 칩 내부 구성 철학 — 정확히는 연산 유닛의 "입자 크기"입니다.
| 구분 | GPU (NVIDIA) | TPU (Google) |
|---|---|---|
| 구성 | 작은 SM을 칩 전체에 타일처럼 多수 배치 | 큰 행렬 유닛(MXU) 몇 개 + 중앙 벡터 유닛 |
| 입자 크기 | 잘게 (fine-grained) | 굵게 (coarse-grained) |
| 최대 장점 | 유연성 — 작업을 잘게 쪼개 여러 SM에 배분 | 효율 — 큰 행렬곱에서 부가구조 오버헤드 최소 |
| 약점 | SM마다 레지스터·스케줄러 중복 → 순수 행렬곱 오버헤드 | 불규칙·다양한 작업엔 취약 |
| 유리한 워크로드 | 불규칙한 흐름, MoE 통신 등 | 정형화된 대규모 행렬곱 |
GPU는 작은 분식집 100개를 시내 곳곳에 깐 거예요. 주문이 제각각이어도 가까운 가게가 유연하게 처리하죠. 단, 가게마다 주방·계산대(부가구조)가 중복됩니다. TPU는 거대한 중앙 급식소 2개입니다. 똑같은 메뉴(대규모 행렬곱)를 대량으로 찍어낼 땐 압도적이지만, 손님마다 다른 특별주문(불규칙 작업)엔 약합니다.
드와르케시 파텔이 젠슨황에게 던진 질문은 이거였습니다: "AI가 대부분 행렬곱이라면, 더 단순하고 최적화된 TPU가 GPU보다 유리한 것 아니냐?" 젠슨황의 답: "AI는 행렬곱만이 아니다."
새로운 attention, Hybrid-SSM, MoE, diffusion+autoregressive 결합, 길어지는 컨텍스트, KV cache, all-to-all 통신, 서빙 최적화 기법 — 이 모든 게 계속 바뀝니다. 모델 아키텍처가 바뀌면 커널이 바뀌고, 커널이 바뀌면 메모리 레이아웃과 스케줄링이 바뀝니다. 워크로드가 아직 안 굳었기 때문에 고정된 ASIC보다 프로그래밍 가능한 시스템(GPU)이 더 강합니다.
과거의 해자: "CUDA가 아니면 못 한다" (잠금·종속)
현재의 해자: "새로운 것을 가장 빨리 만들고, 가장 빨리 디버깅하고, 가장 넓게 배포할 수 있다" (속도)
프론티어 연구에서는 새 아이디어를 얼마나 빨리 실험하고 실패 원인을 빨리 좁히느냐가 전부입니다. vLLM·SGLang·Triton·RL 프레임워크처럼 새 스택이 계속 쏟아지는 환경에선 검증된 생태계(설치 기반·드라이버·라이브러리)가 강력한 기준점이 됩니다.
기술 비교보다 더 중요한 건 젠슨황 vs 순다르 피차이의 인사이트·실행력 경쟁입니다. 모델이 어디로 갈지 미리 읽고 공급망을 짜고 HW-SW를 준비해두는 능력 — 그리고 미성숙한 기술 돌파구를 누가 더 빨리 상용화하느냐 — 가 곧 해자입니다. 젠슨황은 앤디 그로브의 "편집광만이 살아남는다"를 가장 잘 실천하는 CEO로 평가됩니다.
"AI 워크로드는 언제 안정화되는가?"
이 질문에 대한 답이 GPU↔TPU 점유율의 장기 균형을 결정합니다. 워크로드가 굳을수록(=모델 아키텍처 혁신 속도가 둔화될수록) TPU·Trainium 같은 ASIC형 가속기의 비용 우위가 빛을 발하고, 반대로 혁신이 계속 가속될수록 GPU+CUDA의 유연성 해자가 강해집니다. FP4 네이티브 격차, B300의 트랜지스터 몰빵 방향, 신규 서빙 스택의 등장 빈도 — 이 세 가지가 현재 "변화 속도"를 읽는 실전 프록시입니다.
이 챕터의 목적: 앞 8개 챕터는 Reiner Pope(MatX CEO) 인터뷰 기반의 원리 자료입니다. 원리는 시간이 지나도 안 변하지만, "TPU는 FP4를 못 한다" 같은 특정 스펙 주장은 세대가 바뀌면 깨집니다. 2026년 4월 구글이 발표한 8세대 TPU(v8t/v8i)를 대입해, 무엇이 그대로 맞았고 무엇이 갱신됐는지를 검증합니다.
구글은 사전훈련·후처리·실시간 서빙의 요구가 갈라졌다(diverged)고 보고, 하나의 범용 TPU 대신 두 개의 전용 시스템을 냈습니다. 둘 다 Arm 기반 Axion CPU를 헤더로 붙여 호스트 병목(데이터 준비 지연)을 제거했습니다.
| 항목 | TPU 8t (Sunfish · 훈련) | TPU 8i (Zebrafish · 추론) |
|---|---|---|
| 주 워크로드 | 대규모 사전훈련, 임베딩 | 샘플링·서빙·추론(reasoning) |
| 네트워크 토폴로지 | 3D Torus (검증된 방식 유지) | Boardfly (신규) |
| 특화 블록 | SparseCore (임베딩) + LLM Decoder Engine | CAE (Collectives Acceleration Engine) |
| HBM 용량 | 216 GB | 288 GB |
| 온칩 SRAM (Vmem) | 128 MB | 384 MB (3배) |
| FP4 피크 | 12.6 PFLOPS | 10.1 PFLOPS |
| HBM 대역폭 | 6,528 GB/s | 8,601 GB/s (~1.3배) |
| vs Ironwood(v7) 가성비 | 훈련 ~2.7배 | 추론 +80% |
앞 교재 챕터 7~8의 핵심 긴장은 "하나의 칩으로 train과 inference, 정형과 불규칙을 다 커버해야 하니 TPU의 고정성이 약점"이라는 것이었습니다. 구글의 답은 아예 칩을 둘로 쪼개는 것입니다. 각 칩이 자기 워크로드에만 특화되니, "범용성을 위한 타협"이라는 ASIC의 고질병을 회피합니다.
투자 함의: 이건 NVIDIA의 "하나의 유연한 GPU로 다 한다"는 철학과 정면으로 갈리는 베팅입니다. 워크로드가 train/inference로 명확히 분리·안정화될수록 구글식 분리 전략의 가성비가 빛나고, 계속 뒤섞이고 빠르게 변할수록 NVIDIA의 단일 유연 플랫폼이 유리합니다. 둘의 우열은 결국 "워크로드 안정화 속도"가 결정한다는 챕터 8 결론과 정확히 같은 축입니다.
원래 교재는 "TPU v7/Trainium3은 FP4 네이티브 미지원 → 전성비 GB300이 2배"라고 했습니다. v8t는 이 약점을 정확히 정조준해 FP4 네이티브를 도입, MXU throughput을 2배로 올리고 "비트당 파라미터를 줄여 에너지 집약적 데이터 이동을 최소화"한다고 명시합니다. 챕터 2의 "FP4 = 데이터 이동 비용 절감" 논리를 구글이 그대로 채택한 셈입니다.
| FP4 네이티브 지원 | 앞 교재(원리편) 기준 | 2026 현실 (v8 세대) |
|---|---|---|
| NVIDIA | Blackwell 네이티브 (첫 HW) | 유지 |
| Google TPU | v7 미지원 (FP8까지) | v8t/v8i 네이티브 지원 (격차 해소) |
교훈: "원리"와 "특정 세대의 스펙 주장"을 구분해야 합니다. 원리(저정밀도가 데이터 이동을 줄인다)는 영구히 맞지만, "누가 지원하느냐"는 분기마다 추적해야 할 변수입니다. 단 — 절대 FLOPS는 여전히 GB300(15 PFLOPS) > v8t(12.6) > v8i(10.1)로 NVIDIA가 칩당 우위. 구글의 무기는 칩당 성능이 아니라 클러스터 단위 goodput입니다.
v8t의 scale-out 패브릭이 Virgo입니다. 첨부 다이어그램(SemiAnalysis)의 구조를 교재 용어로 해부하면:
| 항목 | 값 | 교재 관점 해석 |
|---|---|---|
| 최대 칩 수 | 134,400 TPU 8t (단일 패브릭) | JAX·Pathways로 멀티사이트 시 100만+ 칩까지 |
| Bisection BW | 47 Pbps (non-blocking) | 전체 토큰 throughput을 떠받치는 '굵은 파이프' |
| 토폴로지 | flat 2-layer (L1↔L2) | high-radix 스위치로 계층(tier)을 줄여 latency↓ |
| 슈퍼팟 | 9,600칩 (3D Torus ICI) × 14개 | 팟 내부는 챕터 6의 '결정론적' 이웃 통신 |
| 세대 향상 | 가속기당 BW 4배, latency 40%↓, ICI 2배 | 면적 효율 + 클럭(=BW) 양쪽 다 키운 케이스 |
| non-blocking 비결 | L1↔L2 일부 링크 2배 증설 | 병목 경로(critical path)를 의도적으로 보강 |
여기가 가장 인사이트 있는 대목입니다. 앞 교재 챕터 7에서 "작업이 불규칙하고 all-to-all 통신이 많은 MoE 추론 같은 건 GPU식 구조가 더 유리"라고 했었죠. 구글의 v8i가 정확히 이 약점을 인정하고, 추론 전용 칩에서 3D Torus를 버렸습니다.
3D Torus는 "바둑판처럼 옆집끼리만 손잡은 마을"입니다. 이웃과는 빠르지만, 반대편 끝 집까지 가려면 여러 집을 거쳐야 해요(1024칩이면 최대 16홉). 훈련(이웃끼리 dense 통신)엔 좋지만, MoE 추론은 아무 집이나 갑자기 통화해야 하는데(all-to-all) 그때마다 16번 거치면 느립니다. Boardfly는 마을 간 직통 광케이블(OCS)을 깔아 최대 7홉으로 줄였습니다.
챕터 5·8의 FPGA/ASIC 논리를 떠올려보세요: 워크로드가 굳어야 고정형(ASIC) 투자가 정당화됩니다. 구글이 추론 전용 칩에 완전히 새 토폴로지(Boardfly)를 tape-out 비용 감수하고 깔았다는 것은, "MoE·reasoning의 all-to-all 통신 패턴이 이제 충분히 안정적이어서 하드웨어로 박제해도 된다"고 판단했다는 뜻입니다. 추론 워크로드의 성숙을 베팅한 거죠.
광학(Optics) 투자 연결고리: Boardfly의 핵심은 그룹 간 장거리 광 링크 + OCS입니다. 추론 패브릭이 torus(구리 주도)에서 dragonfly(광 주도)로 가면 트랜시버·OCS 수요 곡선이 달라집니다 — 광학 밸류체인 thesis와 직결됩니다.
| 앞 교재의 명제 | 판정 | 근거 |
|---|---|---|
| 저정밀도(FP4)가 데이터 이동을 줄여 추론 핵심 | ✓ 그대로 맞음 | v8t가 "에너지 집약적 데이터 이동 최소화" 명분으로 FP4 채택 |
| 면적 배분이 칩 설계의 본질 | ✓ 그대로 맞음 | v8i의 SRAM 3배·CAE 추가 = KV캐시 온칩 배분 선택 |
| TPU는 정형 행렬곱 강, 불규칙 all-to-all 약 | ✓ 맞음 (구글이 인정) | 그래서 추론칩 v8i는 torus를 버리고 Boardfly로 교체 |
| TPU는 FP4 네이티브 미지원 | ✗ 갱신됨 | v7 스냅샷. v8t/v8i 네이티브 지원으로 격차 해소 |
| 하나의 유연한 칩 vs 하나의 고정 칩 구도 | △ 재정의됨 | 구글이 칩을 train/inference로 분리해 이분법 자체를 우회 |
| 승부는 '워크로드 변화 속도'가 결정 | ✓✓ 더 강해짐 | v8i 토폴로지 교체 = 추론 워크로드 안정화 베팅의 실물 증거 |
최종 투자 프레임 (갱신판): 챕터 8에서 "추적할 단 하나의 지표 = 워크로드 안정화 속도"라 했습니다. v8 발표가 준 새 데이터포인트는 — "훈련은 아직 3D Torus(=안 굳음, NVIDIA 유연성 유효), 추론은 Boardfly로 박제(=굳기 시작, ASIC 가성비 발휘)". 즉 전선이 둘로 갈렸습니다. 훈련 시장에선 NVIDIA의 CUDA 유연성 해자가 여전히 강하고, 추론 시장은 ASIC(TPU 8i·Trainium 등)이 가성비로 침투하기 시작하는 국면으로 읽는 것이 합리적입니다. Tom's Hardware가 짚었듯 구글도 같은 Virgo 위에서 Vera Rubin NVL72를 굴린다 — TPU는 NVIDIA의 대체재가 아니라 워크로드별 보완재 포지셔닝입니다.
출처: Google Cloud 공식 「TPU 8t/8i technical deep dive」(2026.04.22), 「Introducing Virgo Network」, Tom's Hardware, SemiAnalysis 다이어그램, DCD. 가격·성능 수치는 발표 시점 구글 자체 주장이며 독립 검증 전임에 유의.