LIVE BRIEFING VERSION 2.0 2026.05.22 MUST ASSET // GLOBAL GENERALIST DESK ANALYST: 기홍

XPU
전쟁의 진짜 전선

시장은 "NVDA 짱 + TPU만 제대로"라고 묶지만, 2026 상반기에 5개의 사건이 그 프레임을 무너뜨렸다 — OpenAI-AWS Trainium 2GW 딜 (2.27), Google TPU 8t/8i 분리 (4.22), Anthropic-Google $200B/5y (5.5), Anthropic-Microsoft Maia 협의 (5.21), 그리고 Trainium3 NL32x2/NL72x2 switched scale-up 출하 (12월). 본 브리핑은 공개 스펙·토폴로지·전력·소프트웨어 락인을 묶어, 왜 Anthropic이 4개 칩 패밀리를 동시 운용하고 OpenAI가 자기 ASIC을 직접 설계하는지를 "내러티브 × 넘버스 × 워크로드 4-분할"로 풀어낸다.

3줄요약
  1. 01AI 칩 경쟁은 "GPU vs ASIC"이 아니라 "워크로드 4-분할(pre-train · post-train/RL · prefill · decode)" 포트폴리오 싸움. 각 quadrant마다 winner가 다르고, 그래서 frontier lab은 multi-vendor가 필수다. NVIDIA는 pre-train·범용에서 여전히 디폴트, TPU는 inference 시대 무기, Trainium은 cost/token, Maia는 inference SRAM 효율.
  2. 022026년의 진짜 breakout 3개: ① Trainium3가 3D Torus→switched all-to-all로 바뀌면서 MoE decode의 all-to-all 병목 해결, ② Google TPU 8t(training, 9,600 chip pod)와 8i(inference, Boardfly topology, 384MB SRAM)로 SKU를 명시적 분리 → "범용 AI 칩 시대 종료" 선언, ③ Anthropic-AWS는 단순 임차가 아니라 Annapurna Labs를 사실상 custom silicon partner로 활용하는 hardware-software co-design 관계.
  3. 03KPI 자체가 변했다: 시장은 여전히 PFLOPS·HBM만 보지만, 연구소는 "output tokens per megawatt""cost per million tokens"로 본다. AWS는 Trn3가 Trn2 대비 megawatt당 output token 5x↑를 주장. Anthropic이 4-vendor를 동시 운용하는 건 NVDA 대체가 아니라 "미래 토큰 원가를 통제할 권리"를 4곳에 분산 저장하는 전략이다.
Nvidia가 "강한 칼"이라면, AI 회사들은 전쟁을 하려면 칼 하나가 아니라 총알공장·전기·창고·보급로까지 직접 잡아야 해서 ASIC을 미친 듯이 사는 거다. 시장은 칼 길이(TFLOPS)를 보고 있지만, 연구소들은 "내 모델 token 1개당 원가를 누가 통제하느냐"를 본다.
/ 01 — WORKLOAD MATRIX V2 NEW

왜 한 칩으로 끝낼 수 없는가:
워크로드 4-Quadrant 프레임

시장 일반참여자는 "어떤 칩이 가장 좋냐"를 묻는다. 연구소는 워크로드를 4개로 쪼개서 각각 다른 칩을 쓴다. Pre-training은 안정성 (Nvidia 강함), Post-training/RL은 cost/throughput (ASIC 강함), Inference Prefill은 HBM·연산, Inference Decode는 SRAM·interconnect·MoE routing. 같은 모델이라도 4개 단계마다 다른 칩이 최적이다. 이게 multi-vendor 포트폴리오의 본질.

QUADRANT 1 · DENSE COMPUTE

Pre-Training

특징: 수 주~수 개월 dense/MoE 모델 한 번에 돌림. 실패하면 수억$ 증발. 안정성 · 분산학습 성숙도 · 소프트웨어가 핵심.
  • Dense FLOPS의 sustained utilization이 가장 중요
  • Library / kernel / debugger / fail-safe 모두 NVIDIA가 앞섬
  • HBM capacity가 model parallel을 결정
  • 새 모델 prototyping도 여기서 시작
WINNER: NVIDIA GB200/GB300/Vera Rubin
도전자: TPU 8t (Broadcom 디자인, 9,600 chip pod)
KPI: sustained FLOPS utilization · training failure rate
QUADRANT 2 · ITERATIVE

Post-Training · RL · Synthetic Data

특징: 대규모 실험을 엄청 많이 반복. Frontier 학습보다 반복성 + 비용이 중요. 실패 cost가 낮아져 ASIC 진입 여지가 큼.
  • 실험 수 × 작은 모델 size → 칩 cost가 직접 ROI에 영향
  • RL rollout은 inference-heavy, large batch
  • Synthetic data 생성은 inference + storage I/O
  • Trainium / TPU가 가장 빠르게 시장 점유 가능
WINNER: Trainium2/3 · TPU 8t/8i 혼용
도전자: NVIDIA + DGX Cloud
KPI: experiments per dollar · iteration time
QUADRANT 3 · INPUT PHASE

Inference Prefill

특징: 긴 input context (1M~10M tokens)를 한 번에 읽음. Compute-heavy · 큰 batch · HBM bandwidth · 메모리 capacity 중요.
  • Long-context model이 늘수록 prefill cost 폭증
  • HBM 7+ TB/s, 200GB+ capacity가 절대 우위
  • Dense FP8/FP4 throughput이 직결
  • Anthropic의 1M context Claude가 여기서 가장 비쌈
WINNER: TPU v7 Ironwood · TPU 8i · Maia 200
도전자: GB300 (HBM 288GB)
KPI: tokens per sec/HBM-TB · long-context latency
QUADRANT 4 · TOKEN PHASE

Inference Decode

특징: 토큰 하나씩 뽑음 (auto-regressive). Latency · KV cache · SRAM · MoE expert routing · chip-to-chip interconnect가 모두 동시에 중요.
  • Reasoning model · agent · tool use가 늘수록 decode 비용 폭주
  • MoE → all-to-all collective가 매 토큰마다 발생
  • 대형 SRAM이 KV cache HIT률을 높임
  • 이 4번째 quadrant가 향후 5년 가장 큰 cost pool
WINNER: Trainium3 NL72x2 (switched) · TPU 8i (Boardfly) · Maia 200 (272MB SRAM)
도전자: GB300 NVL72
KPI: latency p50/p99 · MoE expert routing throughput
// MARKET KPI (구)
· PFLOPS (peak)
· HBM capacity (GB)
· Benchmark MFU
· Training time on benchmark
// LAB KPI (신)
· output tokens / megawatt
· cost per million tokens
· latency per user (p50/p99)
· capex per GW
/ 02 — CHIP ROSTER

RPG 스타일 능력치 시트

FF·드퀘식으로 본 2026년 1H 기준 주력 AI 가속기. 능력치는 동일 척도로 0~100 정규화 (peer max를 100으로). V2 변경: Trainium3를 NL32x2 (air-cooled, 64-chip)와 NL72x2 (liquid-cooled, 144-chip) 두 SKU로 분리, TPU v7 Ironwood에 TPU 8t/8i 추가.

NVIDIA · TSMC 4NP
GB300 NVL72
S TIER
GENERAL
"전 직군 마스터 검사" — versatile, 비싸고, 디폴트. 새 모델 prototyping의 시작점.
FP4 Dense
15 PFLOPS
HBM3e
288 GB / 8 TB/s
NVLink 5
1.8 TB/s/chip
Scale-up Domain
72 chips (NVL72)
TDP
1,400W
Rack FP4
1.1 ExaFLOPS
NVIDIA · TSMC 3nm · 2H26
VERA RUBIN NVL144
SS TIER
FUTURE
"전직 마스터의 차세대 무기" — HBM4 + 144 chip rack, OpenAI 첫 1GW (H2 2026).
FP4 Dense
50 PFLOPS (추정)
HBM4
288 GB / 13 TB/s
NVLink Fusion
차세대
Scale-up Domain
144 chips (NVL144)
Ship
H2 2026
Rack FP4
3.6 ExaFLOPS
AWS · N3P · 2025.12
TRAINIUM3 NL32×2
A TIER
AIR-COOL
V2 인사이트: "air-cooled로 빠른 deploy" — 2026 Trainium3 출하 다수는 이쪽 SKU. 전력·냉각 인프라 부족한 사이트에 우선 배치.
FP8
2.52 PFLOPS
HBM3e
144 GB / 4.9 TB/s
NeuronLink-v4
2 TB/s/chip
Domain
64 chips (switched)
Cooling
AIR-cooled
Time-to-mkt
FAST
AWS · N3P · 2025.12
TRAINIUM3 NL72×2
A+ TIER
FRONTIER
"Anthropic 전용 frontier 검술" — 144 chip switched scale-up. 4조+ parameter MoE 겨냥. Liquid-cooled.
FP8
2.52 PFLOPS
HBM3e
144 GB / 4.9 TB/s
NeuronLink-v4
2.5 TB/s/chip
Domain
144 chips (switched)
Rack FP8
362 PFLOPS
Anchor
Anthropic Rainier
GOOGLE · 3nm · 2026 GA
TPU v7 IRONWOOD
S TIER
INFERENCE
"대규모 진형술의 달인" — 9,216-chip pod, 1.77 PB aggregate HBM (Llama 405B BF16 2,000 replica).
FP8
4.614 PFLOPS
HBM3e
192 GB / 7.4 TB/s
ICI
1.2 TB/s/chip
SuperPod
9,216 chips (OCS)
Pod FP8
42.5 ExaFLOPS
Anchor
Anthropic $200B/5y
GOOGLE · 2026.04 · BROADCOM
TPU 8t
SS TIER
TRAINING
V2 신규: "전용 학습검" — 9,600 chip pod, 121 FP4 ExaFLOPS, 2 PB HBM. 3D Torus 유지. 2.8x training perf/$ vs Ironwood.
FP4 (chip)
12.6 PFLOPS
HBM
216 GB / 6.5 TB/s
SRAM
128 MB
SuperPod
9,600 chips (3D Torus)
Pod FP4
121 ExaFLOPS
Designer
Broadcom
GOOGLE · 2026.04 · MEDIATEK
TPU 8i
SS TIER
INFERENCE
V2 신규: "Boardfly 추론 단검" — 384 MB SRAM (Ironwood 3x), agentic AI 겨냥. 80% better perf/$ vs Ironwood. MediaTek 디자인.
FP4 (chip)
10.1 PFLOPS
HBM3e
288 GB / 8.6 TB/s
SRAM
384 MB (3x↑)
ICI
19.2 Tb/s/chip
Topology
Boardfly (1,152)
Diameter
7 hops (16↓7)
MICROSOFT · N3E · 2026.01
MAIA 200
A TIER
INFERENCE
"FP4 단검술 전문가" — 750W로 10 PFLOPS FP4, 272 MB SRAM (KV cache HIT률 ↑). Ethernet 기반 scale-up.
FP4
10 PFLOPS
FP8
5 PFLOPS
HBM3e
216 GB / 7 TB/s
SRAM
272 MB
Cluster
6,144 chips (Ethernet)
TDP
750W (최저!)
OPENAI × BROADCOM · 2H26+
OPENAI XPU
? TIER
SELF-DESIGN
"자체 설계 무명 신검" — 10GW, 2026 H2 deploy 시작, 2029 완성. OpenAI 모델 구조를 직접 silicon에 박는 시도.
Spec
미공개
Scale-up
Broadcom Ethernet
Total Deploy
10 GW (~2029)
Designer
OpenAI in-house
Fab
Broadcom
Risk
execution HIGH

주요 칩 능력치 레이더 (정규화 0-100)

// peer-max 기준 / 7-axis comparison

Scale-Up Domain Size (log scale)

// 단일 fabric으로 묶이는 chip 수 — frontier MoE의 키 변수
/ 03 — THE REAL EUREKA V2 EXPANDED

3-Way Topology War:
3D Torus vs Switched vs Boardfly

시장은 PFLOPS·HBM만 본다. 진짜는 토폴로지다. MoE training step time의 ~45%가 all-to-all 통신인데, 이 병목을 누가 푸느냐가 frontier lab의 칩 선택을 결정한다. 2026년에 3개 진영이 토폴로지 paradigm shift를 단행했고, 각자 다른 답을 내놨다. NVIDIA만 fully-connected NVSwitch를 유지하는 가운데, Google과 AWS가 movements를 시작.

LEGACY · TRAINIUM2

3D Torus Mesh

// 64 chips · neighbor-only
corner-to-corner: 16 hops O(√N) hop latency
DOMAIN
64
MAX HOPS
16
BW/CHIP
1.28 TB/s
MoE FIT
✗ POOR
AWS · TRAINIUM3

Switched All-to-All

// 144 chips · NeuronSwitch-v1
NEURON SWITCH any-to-any = 1 hop
DOMAIN
144
MAX HOPS
1
BW/CHIP
2.5 TB/s
MoE FIT
✓ GOOD
GOOGLE · TPU 8i

Boardfly Hierarchical

// 1,152 chips · Dragonfly-style
OCS 36 grp 4ch → board → group → pod
DOMAIN
1,152
MAX HOPS
7 (16↓7)
BW/CHIP
19.2 Tb/s
MoE FIT
✓ OPTIMAL

왜 이게 중요한가 — MoE Training Time Breakdown

// 다수 paper consensus: all-to-all 통신이 MoE training step time의 ~45%

유레카 포인트 (V2 확장)

EK1
"Trainium3 NL32x2 air-cooled = 진짜 시장 침투의 KEY" — 시장은 NL72x2 (144 chip, liquid)만 본다. SemiAnalysis는 2026년 Trainium3 출하 다수가 NL32x2 (64 chip, air-cooled)일 가능성을 짚었다. 이유는 단순: liquid-cooled 데이터센터 준비된 사이트가 부족. 최고 성능 랙보다 빨리 깔리는 랙이 실제 capacity 게임에서 이긴다. 이건 칩 spec이 아니라 data center readiness가 binding constraint라는 신호다.
EK2
"Google TPU 8t/8i 분리 = '범용 AI 칩' 시대 종료 선언" — 한 generation에서 처음으로 SKU를 training (8t, Broadcom)과 inference (8i, MediaTek) 둘로 쪼갰다. 8i의 Boardfly topology는 3D Torus의 max 16 hops를 7 hops로 줄임 (56% 단축) = MoE/agentic에 최적화. MediaTek 영입은 모바일 SoC의 low-power · high-volume 로직을 datacenter에 가져온다는 의미 — NVIDIA 고전력 게임에 대한 비대칭 응수.
EK3
"NVIDIA NVLink Fusion → Trainium4 라이선싱은 NVIDIA가 lock-in을 양보한 결정적 신호" — AWS는 Trainium4부터 NVLink Fusion 통합 발표. NVIDIA가 자기 IP를 경쟁자 ASIC에 라이선싱한다 = NVIDIA도 "HW lock-in"보다 "ecosystem central"이 더 가치 있다고 판단. NVDA bear thesis에서 가장 강한 카운터이자, 동시에 NVDA의 "all margin in HW" 모델이 끝나간다는 신호.
EK4
"Maia 200의 272MB SRAM = chatbot serving용 KV cache 무기" — HBM이 크다고 inference가 빠른 게 아님. Chatbot은 매번 같은 거대한 weight + 사용자별 KV cache를 처리. 온칩 SRAM에 KV cache HIT률을 올리면 latency·throughput이 모두 개선. Maia의 272MB SRAM은 NVIDIA·Google에 비해 SRAM-first design. Anthropic이 Maia를 보는 건 학습 대체가 아니라 "Copilot/Foundry향 Claude inference의 token cost 절감"이다.
EK5
"Anthropic-AWS는 임차가 아니라 custom silicon partnership" — SemiAnalysis: Anthropic이 Trainium2의 유일한 대형 외부 end-user를 넘어 Amazon 내부 수요보다 큰 규모가 될 가능성, Annapurna Labs 설계 의사결정에 깊게 관여. Anthropic 입장에서는 자체 ASIC 회사를 안 만들면서도 칩 디자인을 자기 모델에 맞춤. 이게 Google DeepMind의 TPU 모델을 outsourced로 재현한 것.
EK6
"OpenAI-AWS Trainium 2GW (2026.02.27) = 시장이 가장 안 보고 있는 신호" — OpenAI가 Microsoft·NVIDIA의 우산을 벗어나 Anthropic의 AWS 칩을 쓰겠다고 commit. $138B 8년 deal에 Trn3·Trn4 포함. "Stateful Runtime, Frontier, advanced workloads"용. 즉 OpenAI도 inference cost를 NVIDIA 한 곳에 맡길 수 없다고 명시. AWS가 OpenAI Frontier의 exclusive third-party cloud distribution이 되는 효과까지.

Anthropic은 지금 사실상 "나는 칩 회사를 만들지 않지만, Amazon·Google·Microsoft가 나를 위해 칩 회사를 하게 만든다"는 전략을 쓰고 있다. Google DeepMind가 TPU로 한 hardware-software co-design을, Anthropic은 외주로 4곳에 분산해서 한다.

— V2 CORE INSIGHT · ATTRIBUTED FROM GPT FIELD RESEARCH
/ 04 — DECISION MATRIX

연구소 XPU 포트폴리오의
7가지 동시 최적화 변수

Frontier lab은 "어느 칩이 빠른가"를 보지 않는다. 7개 차원에서 동시 최적화하는 다중목적 문제다. 각 차원의 winner가 모두 달라서 결국 multi-vendor 포트폴리오로 귀결된다. V2 추가: 각 factor의 winner가 워크로드 quadrant별로 또 다르다는 점.

01
SUPPLY · 공급
NVIDIA Blackwell은 2026 mid까지 sold out. 36개월 대기. Anthropic·OpenAI는 자기 모델 학습 자체를 보장하기 위해 여러 공급선이 필수.
WINNER: Multi-vendor (single point of failure 회피)
02
COST · 원가
NVIDIA GM ~70%. 그게 hyperscaler cloud margin을 잠식. ASIC은 $/token을 30~50% 절감. Trainium 30~40% better price/perf vs P5e, Maia 200 "30% better $/token".
WINNER: Trainium3 · Maia 200 · TPU 8i
03
POWER · 전력
10MW pod 시대 — Texas·Ohio 전력 인프라가 binding constraint. Maia 200 750W가 GB300 1,400W의 절반. 같은 전력 envelope에서 2배 inference.
WINNER: Maia 200 / TPU 8i (perf/W)
04
NETWORK · 네트워크
모델 크기를 결정하는 핵심. TPU 8t의 9,600 chip pod (121 ExaFLOPS) vs TPU 8i의 Boardfly 1,152 chips (7-hop max) vs Trainium3 NL72x2의 144 chips.
WINNER: TPU 8t (training) · TPU 8i (inference)
05
LOCK-IN · 락인
CUDA에 갇히면 NVIDIA 가격에 갇힌다. Neuron / XLA / Maia SDK 모두 PyTorch·JAX 지원. NVIDIA NVLink Fusion → Trainium4 라이선싱은 lock-in 양보 신호.
WINNER: NVIDIA (still) · 도전: PyTorch·JAX
06
NEGOTIATION · 협상력
"NVIDIA가 유일 옵션이면 가격은 NVIDIA가 정한다" — alternative 칩 운용 능력이 협상 카드. AMD-OpenAI 1.6억 주 warrant가 대표 사례.
WINNER: Multi-vendor portfolio
07
MODEL · 모델 구조
MoE → switched all-to-all (Trainium3 / Boardfly). Reasoning → 큰 SRAM (Maia 272MB / TPU 8i 384MB). Long context → HBM bandwidth (TPU 7.4TB/s). 모델이 칩을 결정.
WINNER: use-case별 분산

각 칩의 7요소 점수 (정성 평가 0-10)

// 본 분석가 정성평가 — 절대값보다 상대 비교에 집중
/ 05 — LAB STRATEGIES V2 NUMBERS UPDATED

Anthropic vs OpenAI
실제 칩 포트폴리오 (최신 수치)

두 lab 모두 "frontier 게임"을 하지만 path가 다르다. Anthropic = 4-vendor 디스트리뷰터, OpenAI = self-design 프로듀서. V2에서는 2026년 1H에 추가된 새로운 numbers (OpenAI-AWS $138B, Anthropic-Google $200B 등) 반영.

ANTHROPIC
// 4-VENDOR DIVERSIFICATION · "DISTRIBUTOR"
AWS Trainium2/3/410Y $100B+ · 5GW · RAINIER
5 GW
Google TPU v7/8t/8i$200B / 5Y + BROADCOM 3.5GW
5+ GW
NVIDIA via Azure$30B AZURE + $15B NVDA INVEST
1 GW
Microsoft Maia 200IN TALKS · 2026.05.21
TBD
// THESIS Run-rate revenue: 2025말 $9B → 2026.04 $30B+. 연 $1M+ 고객 500개 → 1,000+개 (2개월). 이 성장에서 inference cost를 단일 vendor에 묶으면 P&L이 터진다. Anthropic은 "각 hyperscaler가 나를 위해 칩 회사를 하게 만드는" 전략을 사용. AWS는 Annapurna Labs를 사실상 custom silicon partner로 활용, Google은 Broadcom과 TPU 차세대 spec에 input, MS Maia는 옵션 가치. → 한국 운용역 시각: AVGO·MRVL·SKHynix 압승 구도, NVDA의 가격결정력은 inference 영역에서부터 잠식.
PORTFOLIO LOGIC
// 4-WAY EXPLAINED
TRAINIUM → CO-DESIGN PARTNER
Project Rainier 100만+ 칩. Trn2→Trn3→Trn4 transition. Anthropic이 Annapurna에 칩 설계 input. 다음 세대 칩이 Claude 아키텍처에 맞춤. primary training partner.
TPU → 추론 단가 곡선 베팅
TPU 8t/8i 분리로 inference 8i가 80% better perf/$ vs Ironwood. $200B/5y로 미리 락인. Google Cloud 백로그의 40%가 Anthropic.
NVIDIA → ecosystem fallback
MS·NVDA $15B 투자 + Grace Blackwell·Vera Rubin 최대 1GW. 새 모델 prototyping, 디버깅. Always-available baseline.
MAIA → 옵션가치 (option value)
MS $5B 투자 + $30B Azure spend commitment. Maia 200을 잠깐 빌려 쓰는 게 cost ≈ 0. 잘 되면 inference cost ↓, 안 되면 다른 3개 쓰면 됨.
OPENAI
// SELF-DESIGN + 33GW MULTI-DEAL · "PRODUCER"
NVIDIA$100B / 10GW · VERA RUBIN H2'26
10 GW
Broadcom XPUSELF-DESIGN · 2026 H2 → 2029
10 GW
AMD MI450+ 160M SHARE WARRANT
6 GW
AWS Trainium3/42026.02.27 · $100B 추가, 8Y
2 GW
Stargate (Oracle/SB)$500B · 10GW
10 GW
// THESIS OpenAI는 ChatGPT consumer scale 때문에 marginal token cost 압박이 Anthropic보다 빠르다. 그래서 Broadcom과 self-design 10GW로 칩 가치사슬 상승. 동시에 AMD warrant로 NVIDIA 대안 GPU vendor 확보. 총 commitment ~33GW + Stargate 10GW. → V2 신규: OpenAI-AWS Trainium 2GW (2026.02.27)는 시장이 가장 안 보는 신호. OpenAI도 Anthropic의 칩을 쓰겠다 = AWS Trainium 정당성 확보, NVDA 의존도 추가 축소.
PATH DIFFERENCE
// ANTHROPIC vs OPENAI
ANTHROPIC: 디스트리뷰터
기존 ASIC을 가진 클라우드 4곳과 deep partnership → "디자인 input"으로 자기 needs 반영. 칩 risk를 vendor에 outsource. capex-light, 협상력 분산.
OPENAI: 프로듀서
자기 칩 직접 디자인 (Broadcom = fabrication partner). 칩 risk 본인 책임이지만 control 100%. consumer scale ChatGPT의 marginal token cost를 직접 잡으려는 시도.
투자 함의
Anthropic 모델 = NVDA·AVGO·MRVL·GOOG·AMZN·MSFT·SKHynix 모두 winner. OpenAI 모델 = AVGO·MRVL 압승, hyperscaler ASIC lock-in 약화. AVGO는 양쪽 모두에서 핵심.

두 lab의 GW commitment 비교 (V2 업데이트)

// 공식 발표 기준 GW (Stargate 포함)
/ 06 — INVESTMENT IMPLICATIONS

투자 함의 정리

// MUST Asset 글로벌 제너럴리스트 시각으로 정리. V2에서는 KPI 변화 + TPU 8i / OpenAI-AWS deal 반영.

NVDA
중기 캐시카우, 장기 share loss 시작
2026~27까지는 default. 그러나 ① Trainium3 switched scale-up, ② TPU 8t/8i 분리, ③ OpenAI 자체 ASIC + AMD warrant, ④ NVLink Fusion 라이선싱으로 NVDA의 margin pricing power가 처음 시험대에. 특히 inference 영역에서 가장 먼저 share loss.
중기 매수 · 장기 trimming · ASIC share monitoring
AVGO
"silent winner" — 모든 시나리오의 enabler
OpenAI 10GW self-design + TPU 8t 디자인 + Anthropic-Google-Broadcom 3.5GW + MS 협업 가능성. 모든 시나리오에서 Broadcom이 fabrication·serdes·optical을 깐다. UBS EPS '28 $20+ vs consensus $15.80 = 27% upside.
강력 매수 · NVDA hedge
GOOG
TPU 8t/8i 분리 = AI infra 차별화
Q1'26 Cloud +63% YoY. Anthropic = 40% backlog (concentration risk). TPU 8t/8i 분리는 inference 시대에 가장 정교한 답. Blackstone JV (500MW, 2027)로 TPU 외부 클라우드 상품화 본격화.
중장기 매수 · Concentration monitoring
AMZN
Trainium3 = AWS margin 회복 catalyst
Anthropic + OpenAI 양쪽 다 anchor customer. 5GW (Anthropic) + 2GW (OpenAI) = 7GW Trainium commitment. NL32x2 air-cooled로 2026 빠른 ramp. AWS GPU compute COGS 30~40% 절감.
매수 · Trainium3 ramp 속도 catalyst
MSFT
Maia 200 외부 판매 시작 = late entrant 만회
Maia 1세대(2024) 지연으로 AWS·Google에 뒤쳐졌으나, Maia 200으로 FP4 efficiency · SRAM 영역에서 leadership 진입. Anthropic 딜이 성사되면 "Azure-internal only" frame 깨지며 외부 monetization.
홀드 · 딜 성사 catalyst
2ND DERIV
HBM · 광·전력 · ASIC enabler
HBM 수요 폭증 (SKHynix, Samsung, Micron). OCS·optical (COHR·LITE·CIEN), serdes (MRVL), thermal (VRT·SMCI). 전력 (CEG·VST, 한국 한전·두산)은 모든 시나리오에서 binding constraint.
분산 매수 · 한국 시각 SK하이닉스 핵심
/ 07 — SLACK PASTE

슬랙 복붙용 정리

팀 채널에 그대로 붙여넣을 수 있는 plain text V2 (확장).

📋 #global-research CTRL+C → 슬랙
📌 XPU 전쟁 V2 — Anthropic·OpenAI 칩 의사결정 분석 (2026.05.22) ▣ 3줄요약 1) AI 칩 경쟁은 "GPU vs ASIC"이 아니라 워크로드 4-분할(pre-train · post-train/RL · prefill · decode) 포트폴리오 싸움. 각 quadrant마다 winner가 다르고 frontier lab은 multi-vendor가 필수 2) 2026년 1H에 5개 사건이 시장 프레임을 깼다: ① OpenAI-AWS Trainium 2GW $138B (2.27), ② TPU 8t/8i 분리 (4.22), ③ Anthropic-Google $200B/5y (5.5), ④ Anthropic-Maia 협의 (5.21), ⑤ Trainium3 switched scale-up 출하 (12월) 3) KPI 자체가 바뀜: PFLOPS·HBM → "output tokens per megawatt", "cost per million tokens". 시장은 옛 KPI로 NVDA만 보는 동안 lab은 새 KPI로 4-vendor 분산 중 ▣ 한줄설명 시장은 칼 길이(TFLOPS)만 보지만 AI 회사들은 전쟁하려면 총알공장·전기·보급로까지 잡아야 해서 ASIC을 미친듯이 사는 것 ▣ 워크로드 4-Quadrant (핵심 프레임) - Pre-training (dense compute) → NVIDIA GB200/GB300/Vera Rubin · TPU 8t 도전 - Post-training/RL/Synthetic → Trainium2/3 · TPU 8t/8i 혼용 - Inference Prefill (long context) → TPU v7/8i · Maia 200 · GB300 - Inference Decode (token phase) → Trainium3 NL72x2 · TPU 8i Boardfly · Maia 200 (272MB SRAM) ▣ 2026 1H 주력 칩 스펙 - NVIDIA GB300 NVL72: FP4 15 PF / HBM3e 288GB·8 TB/s / NVLink 1.8 TB/s / 72-chip / 1,400W - Vera Rubin NVL144 (H2'26): FP4 ~50 PF / HBM4 288GB·13 TB/s / 144-chip / 3.6 ExaFLOPS rack - Trainium3 NL32x2: FP8 2.52 PF / HBM3e 144GB·4.9 TB/s / 64-chip switched · AIR-cooled · 빠른 deploy - Trainium3 NL72x2: 동일 칩, 144-chip switched · liquid-cooled · 4T+ MoE 겨냥 · 362 PF rack - TPU v7 Ironwood: FP8 4.614 PF / HBM3e 192GB·7.4 TB/s / 9,216 chip pod · 42.5 ExaFLOPS pod - TPU 8t (training, Broadcom): FP4 12.6 PF / 216 GB HBM / 9,600 chip pod · 121 FP4 ExaFLOPS · 2.8x perf/$ vs Ironwood - TPU 8i (inference, MediaTek): FP4 10.1 PF / 288 GB HBM / 384 MB SRAM (3x!) / Boardfly 1,152 chips / 7 hops (16↓7) · 80% better perf/$ - Maia 200: FP4 10 PF / FP8 5 PF / HBM3e 216GB·7 TB/s / 272MB SRAM / Ethernet 2.8 TB/s / 6,144 chip cluster / 750W - OpenAI XPU (Broadcom co-design): 10GW · 2026 H2 → 2029 · 자체 디자인 · 미공개 ▣ 유레카 6개 EK1 ▶ Trainium3 NL32x2 air-cooled가 진짜 시장침투 KEY. Liquid-ready 데이터센터 부족이 binding constraint, "느려도 빨리 깔리는 랙" 우위 EK2 ▶ TPU 8t/8i 분리 = "범용 AI 칩 시대 종료" 선언. Boardfly가 3D Torus의 16 hops를 7 hops로 줄임(56%↓). MediaTek 영입은 모바일 SoC 로직을 datacenter에 가져오는 비대칭 전략 EK3 ▶ NVDA NVLink Fusion → Trainium4 라이선싱 = NVDA의 "all margin in HW" 모델 끝나가는 신호. NVDA가 lock-in보다 ecosystem central을 택함 EK4 ▶ Maia 200의 272MB SRAM = chatbot KV cache HIT률 ↑. Anthropic이 Maia 보는 건 학습 대체가 아니라 Copilot/Foundry향 Claude inference cost 절감 EK5 ▶ Anthropic-AWS는 임차가 아니라 custom silicon partnership. Annapurna Labs를 사실상 Anthropic용 ASIC 회사로 운영. Google DeepMind-TPU 모델을 outsourced로 재현 EK6 ▶ OpenAI-AWS Trainium 2GW (2.27)는 시장이 가장 안 보는 신호. OpenAI도 Anthropic의 칩을 쓰겠다 = AWS Trainium 정당성 확보 + OpenAI의 NVDA 의존도 추가 축소 ▣ Anthropic vs OpenAI 전략 차이 - Anthropic: "디스트리뷰터" — 4-vendor diversification, AWS 5GW + Google 5GW + NVDA 1GW + Maia TBD. Run-rate $30B+ (2025말 $9B → 2개월만에 2배+) - OpenAI: "프로듀서" — 자체 ASIC 10GW + NVDA 10GW + AMD 6GW + AWS 2GW + Stargate 10GW. ChatGPT consumer scale의 marginal token cost 직접 잡으려는 시도 - 핵심 표현: Anthropic은 "나는 칩 회사 안 만들지만 Amazon/Google/Microsoft가 나를 위해 칩 회사를 하게 만든다" ▣ KPI 변화 (시장이 놓치는 부분) 구 KPI: PFLOPS / HBM GB / benchmark MFU / training time 신 KPI: output tokens per megawatt / cost per million tokens / latency p50·p99 / capex per GW → AWS Trn3 UltraServer는 Trn2 대비 megawatt당 output token 5x↑ 주장 (이 KPI 등장 자체가 신호) ▣ 투자 함의 (한국 운용역 시각) - NVDA: 중기 캐시카우 유지, 장기 share loss는 inference부터 시작. NVLink Fusion 라이선싱이 신호 - AVGO: silent winner 명제 강화. OpenAI 10GW + TPU 8t 디자인 + Anthropic-Google-Broadcom 3.5GW. UBS '28 EPS $20+ vs consensus $15.80 = 27% upside - GOOG: TPU 8t/8i 분리가 catalyst. Q1'26 Cloud +63% YoY, Anthropic 40% backlog concentration risk - AMZN: Anthropic 5GW + OpenAI 2GW = 7GW Trainium anchor. NL32x2 air-cooled로 빠른 ramp, AWS GPU COGS 30~40% 절감 - MSFT: Maia 200 외부 판매 catalyst. Anthropic 딜 성사 시 monetization - 2nd derivative: SKHynix (HBM), COHR/LITE/CIEN (optical), MRVL (serdes), CEG/VST (전력) — 기홍 / MUST AM Global Generalist Desk · V2 with workload quadrant framework