XPU
전쟁의 진짜 전선
시장은 "NVDA 짱 + TPU만 제대로"라고 묶지만, 2026 상반기에 5개의 사건이 그 프레임을 무너뜨렸다 — OpenAI-AWS Trainium 2GW 딜 (2.27), Google TPU 8t/8i 분리 (4.22), Anthropic-Google $200B/5y (5.5), Anthropic-Microsoft Maia 협의 (5.21), 그리고 Trainium3 NL32x2/NL72x2 switched scale-up 출하 (12월). 본 브리핑은 공개 스펙·토폴로지·전력·소프트웨어 락인을 묶어, 왜 Anthropic이 4개 칩 패밀리를 동시 운용하고 OpenAI가 자기 ASIC을 직접 설계하는지를 "내러티브 × 넘버스 × 워크로드 4-분할"로 풀어낸다.
- 01AI 칩 경쟁은 "GPU vs ASIC"이 아니라 "워크로드 4-분할(pre-train · post-train/RL · prefill · decode)" 포트폴리오 싸움. 각 quadrant마다 winner가 다르고, 그래서 frontier lab은 multi-vendor가 필수다. NVIDIA는 pre-train·범용에서 여전히 디폴트, TPU는 inference 시대 무기, Trainium은 cost/token, Maia는 inference SRAM 효율.
- 022026년의 진짜 breakout 3개: ① Trainium3가 3D Torus→switched all-to-all로 바뀌면서 MoE decode의 all-to-all 병목 해결, ② Google TPU 8t(training, 9,600 chip pod)와 8i(inference, Boardfly topology, 384MB SRAM)로 SKU를 명시적 분리 → "범용 AI 칩 시대 종료" 선언, ③ Anthropic-AWS는 단순 임차가 아니라 Annapurna Labs를 사실상 custom silicon partner로 활용하는 hardware-software co-design 관계.
- 03KPI 자체가 변했다: 시장은 여전히 PFLOPS·HBM만 보지만, 연구소는 "output tokens per megawatt"와 "cost per million tokens"로 본다. AWS는 Trn3가 Trn2 대비 megawatt당 output token 5x↑를 주장. Anthropic이 4-vendor를 동시 운용하는 건 NVDA 대체가 아니라 "미래 토큰 원가를 통제할 권리"를 4곳에 분산 저장하는 전략이다.
왜 한 칩으로 끝낼 수 없는가:
워크로드 4-Quadrant 프레임
시장 일반참여자는 "어떤 칩이 가장 좋냐"를 묻는다. 연구소는 워크로드를 4개로 쪼개서 각각 다른 칩을 쓴다. Pre-training은 안정성 (Nvidia 강함), Post-training/RL은 cost/throughput (ASIC 강함), Inference Prefill은 HBM·연산, Inference Decode는 SRAM·interconnect·MoE routing. 같은 모델이라도 4개 단계마다 다른 칩이 최적이다. 이게 multi-vendor 포트폴리오의 본질.
Pre-Training
- Dense FLOPS의 sustained utilization이 가장 중요
- Library / kernel / debugger / fail-safe 모두 NVIDIA가 앞섬
- HBM capacity가 model parallel을 결정
- 새 모델 prototyping도 여기서 시작
도전자: TPU 8t (Broadcom 디자인, 9,600 chip pod)
Post-Training · RL · Synthetic Data
- 실험 수 × 작은 모델 size → 칩 cost가 직접 ROI에 영향
- RL rollout은 inference-heavy, large batch
- Synthetic data 생성은 inference + storage I/O
- Trainium / TPU가 가장 빠르게 시장 점유 가능
도전자: NVIDIA + DGX Cloud
Inference Prefill
- Long-context model이 늘수록 prefill cost 폭증
- HBM 7+ TB/s, 200GB+ capacity가 절대 우위
- Dense FP8/FP4 throughput이 직결
- Anthropic의 1M context Claude가 여기서 가장 비쌈
도전자: GB300 (HBM 288GB)
Inference Decode
- Reasoning model · agent · tool use가 늘수록 decode 비용 폭주
- MoE → all-to-all collective가 매 토큰마다 발생
- 대형 SRAM이 KV cache HIT률을 높임
- 이 4번째 quadrant가 향후 5년 가장 큰 cost pool
도전자: GB300 NVL72
RPG 스타일 능력치 시트
FF·드퀘식으로 본 2026년 1H 기준 주력 AI 가속기. 능력치는 동일 척도로 0~100 정규화 (peer max를 100으로). V2 변경: Trainium3를 NL32x2 (air-cooled, 64-chip)와 NL72x2 (liquid-cooled, 144-chip) 두 SKU로 분리, TPU v7 Ironwood에 TPU 8t/8i 추가.
GENERAL
FUTURE
AIR-COOL
FRONTIER
INFERENCE
TRAINING
INFERENCE
INFERENCE
SELF-DESIGN
주요 칩 능력치 레이더 (정규화 0-100)
Scale-Up Domain Size (log scale)
3-Way Topology War:
3D Torus vs Switched vs Boardfly
시장은 PFLOPS·HBM만 본다. 진짜는 토폴로지다. MoE training step time의 ~45%가 all-to-all 통신인데, 이 병목을 누가 푸느냐가 frontier lab의 칩 선택을 결정한다. 2026년에 3개 진영이 토폴로지 paradigm shift를 단행했고, 각자 다른 답을 내놨다. NVIDIA만 fully-connected NVSwitch를 유지하는 가운데, Google과 AWS가 movements를 시작.
3D Torus Mesh
Switched All-to-All
Boardfly Hierarchical
왜 이게 중요한가 — MoE Training Time Breakdown
유레카 포인트 (V2 확장)
Anthropic은 지금 사실상 "나는 칩 회사를 만들지 않지만, Amazon·Google·Microsoft가 나를 위해 칩 회사를 하게 만든다"는 전략을 쓰고 있다. Google DeepMind가 TPU로 한 hardware-software co-design을, Anthropic은 외주로 4곳에 분산해서 한다.
연구소 XPU 포트폴리오의
7가지 동시 최적화 변수
Frontier lab은 "어느 칩이 빠른가"를 보지 않는다. 7개 차원에서 동시 최적화하는 다중목적 문제다. 각 차원의 winner가 모두 달라서 결국 multi-vendor 포트폴리오로 귀결된다. V2 추가: 각 factor의 winner가 워크로드 quadrant별로 또 다르다는 점.
각 칩의 7요소 점수 (정성 평가 0-10)
Anthropic vs OpenAI
실제 칩 포트폴리오 (최신 수치)
두 lab 모두 "frontier 게임"을 하지만 path가 다르다. Anthropic = 4-vendor 디스트리뷰터, OpenAI = self-design 프로듀서. V2에서는 2026년 1H에 추가된 새로운 numbers (OpenAI-AWS $138B, Anthropic-Google $200B 등) 반영.
두 lab의 GW commitment 비교 (V2 업데이트)
투자 함의 정리
// MUST Asset 글로벌 제너럴리스트 시각으로 정리. V2에서는 KPI 변화 + TPU 8i / OpenAI-AWS deal 반영.
슬랙 복붙용 정리
팀 채널에 그대로 붙여넣을 수 있는 plain text V2 (확장).