LIVE BRIEFING VERSION 2.0 2026.05.22 MUST ASSET // GLOBAL GENERALIST DESK ANALYST: 기홍

XPU
전쟁의 진짜 전선

시장은 "NVDA 짱 + TPU만 제대로"라고 묶지만, 2026 상반기에 5개의 사건이 그 프레임을 무너뜨렸다 — OpenAI-AWS Trainium 2GW 딜 (2.27), Google TPU 8t/8i 분리 (4.22), Anthropic-Google $200B/5y (5.5), Anthropic-Microsoft Maia 협의 (5.21), 그리고 Trainium3 NL32x2/NL72x2 switched scale-up 출하 (12월). 본 브리핑은 공개 스펙·토폴로지·전력·소프트웨어 락인을 묶어, 왜 Anthropic이 4개 칩 패밀리를 동시 운용하고 OpenAI가 자기 ASIC을 직접 설계하는지를 "내러티브 × 넘버스 × 워크로드 4-분할"로 풀어낸다.

3줄요약

01AI 칩 경쟁은 "GPU vs ASIC"이 아니라 "워크로드 4-분할(pre-train · post-train/RL · prefill · decode)" 포트폴리오 싸움. 각 quadrant마다 winner가 다르고, 그래서 frontier lab은 multi-vendor가 필수다. NVIDIA는 pre-train·범용에서 여전히 디폴트, TPU는 inference 시대 무기, Trainium은 cost/token, Maia는 inference SRAM 효율.
022026년의 진짜 breakout 3개: ① Trainium3가 3D Torus→switched all-to-all로 바뀌면서 MoE decode의 all-to-all 병목 해결, ② Google TPU 8t(training, 9,600 chip pod)와 8i(inference, Boardfly topology, 384MB SRAM)로 SKU를 명시적 분리 → "범용 AI 칩 시대 종료" 선언, ③ Anthropic-AWS는 단순 임차가 아니라 Annapurna Labs를 사실상 custom silicon partner로 활용하는 hardware-software co-design 관계.
03KPI 자체가 변했다: 시장은 여전히 PFLOPS·HBM만 보지만, 연구소는 "output tokens per megawatt"와 "cost per million tokens"로 본다. AWS는 Trn3가 Trn2 대비 megawatt당 output token 5x↑를 주장. Anthropic이 4-vendor를 동시 운용하는 건 NVDA 대체가 아니라 "미래 토큰 원가를 통제할 권리"를 4곳에 분산 저장하는 전략이다.

Nvidia가 "강한 칼"이라면, AI 회사들은 전쟁을 하려면 칼 하나가 아니라 총알공장·전기·창고·보급로까지 직접 잡아야 해서 ASIC을 미친 듯이 사는 거다. 시장은 칼 길이(TFLOPS)를 보고 있지만, 연구소들은 "내 모델 token 1개당 원가를 누가 통제하느냐"를 본다.

/ 01 — WORKLOAD MATRIX V2 NEW

왜 한 칩으로 끝낼 수 없는가:
워크로드 4-Quadrant 프레임

시장 일반참여자는 "어떤 칩이 가장 좋냐"를 묻는다. 연구소는 워크로드를 4개로 쪼개서 각각 다른 칩을 쓴다. Pre-training은 안정성 (Nvidia 강함), Post-training/RL은 cost/throughput (ASIC 강함), Inference Prefill은 HBM·연산, Inference Decode는 SRAM·interconnect·MoE routing. 같은 모델이라도 4개 단계마다 다른 칩이 최적이다. 이게 multi-vendor 포트폴리오의 본질.

QUADRANT 1 · DENSE COMPUTE

Pre-Training

특징: 수 주~수 개월 dense/MoE 모델 한 번에 돌림. 실패하면 수억$ 증발. 안정성 · 분산학습 성숙도 · 소프트웨어가 핵심.

Dense FLOPS의 sustained utilization이 가장 중요
Library / kernel / debugger / fail-safe 모두 NVIDIA가 앞섬
HBM capacity가 model parallel을 결정
새 모델 prototyping도 여기서 시작

WINNER: NVIDIA GB200/GB300/Vera Rubin
도전자: TPU 8t (Broadcom 디자인, 9,600 chip pod)

KPI: sustained FLOPS utilization · training failure rate

QUADRANT 2 · ITERATIVE

Post-Training · RL · Synthetic Data

특징: 대규모 실험을 엄청 많이 반복. Frontier 학습보다 반복성 + 비용이 중요. 실패 cost가 낮아져 ASIC 진입 여지가 큼.

실험 수 × 작은 모델 size → 칩 cost가 직접 ROI에 영향
RL rollout은 inference-heavy, large batch
Synthetic data 생성은 inference + storage I/O
Trainium / TPU가 가장 빠르게 시장 점유 가능

WINNER: Trainium2/3 · TPU 8t/8i 혼용
도전자: NVIDIA + DGX Cloud

KPI: experiments per dollar · iteration time

QUADRANT 3 · INPUT PHASE

Inference Prefill

특징: 긴 input context (1M~10M tokens)를 한 번에 읽음. Compute-heavy · 큰 batch · HBM bandwidth · 메모리 capacity 중요.

Long-context model이 늘수록 prefill cost 폭증
HBM 7+ TB/s, 200GB+ capacity가 절대 우위
Dense FP8/FP4 throughput이 직결
Anthropic의 1M context Claude가 여기서 가장 비쌈

WINNER: TPU v7 Ironwood · TPU 8i · Maia 200
도전자: GB300 (HBM 288GB)

KPI: tokens per sec/HBM-TB · long-context latency

QUADRANT 4 · TOKEN PHASE

Inference Decode

특징: 토큰 하나씩 뽑음 (auto-regressive). Latency · KV cache · SRAM · MoE expert routing · chip-to-chip interconnect가 모두 동시에 중요.

Reasoning model · agent · tool use가 늘수록 decode 비용 폭주
MoE → all-to-all collective가 매 토큰마다 발생
대형 SRAM이 KV cache HIT률을 높임
이 4번째 quadrant가 향후 5년 가장 큰 cost pool

WINNER: Trainium3 NL72x2 (switched) · TPU 8i (Boardfly) · Maia 200 (272MB SRAM)
도전자: GB300 NVL72

KPI: latency p50/p99 · MoE expert routing throughput

// MARKET KPI (구)

· PFLOPS (peak)

· HBM capacity (GB)

· Benchmark MFU

· Training time on benchmark

⟶

// LAB KPI (신)

· output tokens / megawatt

· cost per million tokens

· latency per user (p50/p99)

· capex per GW

/ 02 — CHIP ROSTER

RPG 스타일 능력치 시트

FF·드퀘식으로 본 2026년 1H 기준 주력 AI 가속기. 능력치는 동일 척도로 0~100 정규화 (peer max를 100으로). V2 변경: Trainium3를 NL32x2 (air-cooled, 64-chip)와 NL72x2 (liquid-cooled, 144-chip) 두 SKU로 분리, TPU v7 Ironwood에 TPU 8t/8i 추가.

NVIDIA · TSMC 4NP

GB300 NVL72

S TIER
GENERAL

"전 직군 마스터 검사" — versatile, 비싸고, 디폴트. 새 모델 prototyping의 시작점.

FP4 Dense

15 PFLOPS

HBM3e

288 GB / 8 TB/s

NVLink 5

1.8 TB/s/chip

Scale-up Domain

72 chips (NVL72)

TDP

1,400W

Rack FP4

1.1 ExaFLOPS

NVIDIA · TSMC 3nm · 2H26

VERA RUBIN NVL144

SS TIER
FUTURE

"전직 마스터의 차세대 무기" — HBM4 + 144 chip rack, OpenAI 첫 1GW (H2 2026).

FP4 Dense

50 PFLOPS (추정)

HBM4

288 GB / 13 TB/s

NVLink Fusion

차세대

Scale-up Domain

144 chips (NVL144)

Ship

H2 2026

Rack FP4

3.6 ExaFLOPS

AWS · N3P · 2025.12

TRAINIUM3 NL32×2

A TIER
AIR-COOL

V2 인사이트: "air-cooled로 빠른 deploy" — 2026 Trainium3 출하 다수는 이쪽 SKU. 전력·냉각 인프라 부족한 사이트에 우선 배치.

FP8

2.52 PFLOPS

HBM3e

144 GB / 4.9 TB/s

NeuronLink-v4

2 TB/s/chip

Domain

64 chips (switched)

Cooling

AIR-cooled

Time-to-mkt

FAST

AWS · N3P · 2025.12

TRAINIUM3 NL72×2

A+ TIER
FRONTIER

"Anthropic 전용 frontier 검술" — 144 chip switched scale-up. 4조+ parameter MoE 겨냥. Liquid-cooled.

FP8

2.52 PFLOPS

HBM3e

144 GB / 4.9 TB/s

NeuronLink-v4

2.5 TB/s/chip

Domain

144 chips (switched)

Rack FP8

362 PFLOPS

Anchor

Anthropic Rainier

GOOGLE · 3nm · 2026 GA

TPU v7 IRONWOOD

S TIER
INFERENCE

"대규모 진형술의 달인" — 9,216-chip pod, 1.77 PB aggregate HBM (Llama 405B BF16 2,000 replica).

FP8

4.614 PFLOPS

HBM3e

192 GB / 7.4 TB/s

ICI

1.2 TB/s/chip

SuperPod

9,216 chips (OCS)

Pod FP8

42.5 ExaFLOPS

Anchor

Anthropic $200B/5y

GOOGLE · 2026.04 · BROADCOM

TPU 8t

SS TIER
TRAINING

V2 신규: "전용 학습검" — 9,600 chip pod, 121 FP4 ExaFLOPS, 2 PB HBM. 3D Torus 유지. 2.8x training perf/$ vs Ironwood.

FP4 (chip)

12.6 PFLOPS

HBM

216 GB / 6.5 TB/s

SRAM

128 MB

SuperPod

9,600 chips (3D Torus)

Pod FP4

121 ExaFLOPS

Designer

Broadcom

GOOGLE · 2026.04 · MEDIATEK

TPU 8i

SS TIER
INFERENCE

V2 신규: "Boardfly 추론 단검" — 384 MB SRAM (Ironwood 3x), agentic AI 겨냥. 80% better perf/$ vs Ironwood. MediaTek 디자인.

FP4 (chip)

10.1 PFLOPS

HBM3e

288 GB / 8.6 TB/s

SRAM

384 MB (3x↑)

ICI

19.2 Tb/s/chip

Topology

Boardfly (1,152)

Diameter

7 hops (16↓7)

MICROSOFT · N3E · 2026.01

MAIA 200

A TIER
INFERENCE

"FP4 단검술 전문가" — 750W로 10 PFLOPS FP4, 272 MB SRAM (KV cache HIT률 ↑). Ethernet 기반 scale-up.

FP4

10 PFLOPS

FP8

5 PFLOPS

HBM3e

216 GB / 7 TB/s

SRAM

272 MB

Cluster

6,144 chips (Ethernet)

TDP

750W (최저!)

OPENAI × BROADCOM · 2H26+

OPENAI XPU

? TIER
SELF-DESIGN

"자체 설계 무명 신검" — 10GW, 2026 H2 deploy 시작, 2029 완성. OpenAI 모델 구조를 직접 silicon에 박는 시도.

Spec

미공개

Scale-up

Broadcom Ethernet

Total Deploy

10 GW (~2029)

Designer

OpenAI in-house

Fab

Broadcom

Risk

execution HIGH

주요 칩 능력치 레이더 (정규화 0-100)

// peer-max 기준 / 7-axis comparison

Scale-Up Domain Size (log scale)

// 단일 fabric으로 묶이는 chip 수 — frontier MoE의 키 변수

/ 03 — THE REAL EUREKA V2 EXPANDED

3-Way Topology War:
3D Torus vs Switched vs Boardfly

시장은 PFLOPS·HBM만 본다. 진짜는 토폴로지다. MoE training step time의 ~45%가 all-to-all 통신인데, 이 병목을 누가 푸느냐가 frontier lab의 칩 선택을 결정한다. 2026년에 3개 진영이 토폴로지 paradigm shift를 단행했고, 각자 다른 답을 내놨다. NVIDIA만 fully-connected NVSwitch를 유지하는 가운데, Google과 AWS가 movements를 시작.

LEGACY · TRAINIUM2

3D Torus Mesh

// 64 chips · neighbor-only

DOMAIN

MAX HOPS

BW/CHIP

1.28 TB/s

MoE FIT

✗ POOR

AWS · TRAINIUM3

Switched All-to-All

// 144 chips · NeuronSwitch-v1

DOMAIN

144

MAX HOPS

BW/CHIP

2.5 TB/s

MoE FIT

✓ GOOD

GOOGLE · TPU 8i

Boardfly Hierarchical

// 1,152 chips · Dragonfly-style

DOMAIN

1,152

MAX HOPS

7 (16↓7)

BW/CHIP

19.2 Tb/s

MoE FIT

✓ OPTIMAL

왜 이게 중요한가 — MoE Training Time Breakdown

// 다수 paper consensus: all-to-all 통신이 MoE training step time의 ~45%

유레카 포인트 (V2 확장)

EK1

"Trainium3 NL32x2 air-cooled = 진짜 시장 침투의 KEY" — 시장은 NL72x2 (144 chip, liquid)만 본다. SemiAnalysis는 2026년 Trainium3 출하 다수가 NL32x2 (64 chip, air-cooled)일 가능성을 짚었다. 이유는 단순: liquid-cooled 데이터센터 준비된 사이트가 부족. 최고 성능 랙보다 빨리 깔리는 랙이 실제 capacity 게임에서 이긴다. 이건 칩 spec이 아니라 data center readiness가 binding constraint라는 신호다.

EK2

"Google TPU 8t/8i 분리 = '범용 AI 칩' 시대 종료 선언" — 한 generation에서 처음으로 SKU를 training (8t, Broadcom)과 inference (8i, MediaTek) 둘로 쪼갰다. 8i의 Boardfly topology는 3D Torus의 max 16 hops를 7 hops로 줄임 (56% 단축) = MoE/agentic에 최적화. MediaTek 영입은 모바일 SoC의 low-power · high-volume 로직을 datacenter에 가져온다는 의미 — NVIDIA 고전력 게임에 대한 비대칭 응수.

EK3

"NVIDIA NVLink Fusion → Trainium4 라이선싱은 NVIDIA가 lock-in을 양보한 결정적 신호" — AWS는 Trainium4부터 NVLink Fusion 통합 발표. NVIDIA가 자기 IP를 경쟁자 ASIC에 라이선싱한다 = NVIDIA도 "HW lock-in"보다 "ecosystem central"이 더 가치 있다고 판단. NVDA bear thesis에서 가장 강한 카운터이자, 동시에 NVDA의 "all margin in HW" 모델이 끝나간다는 신호.

EK4

"Maia 200의 272MB SRAM = chatbot serving용 KV cache 무기" — HBM이 크다고 inference가 빠른 게 아님. Chatbot은 매번 같은 거대한 weight + 사용자별 KV cache를 처리. 온칩 SRAM에 KV cache HIT률을 올리면 latency·throughput이 모두 개선. Maia의 272MB SRAM은 NVIDIA·Google에 비해 SRAM-first design. Anthropic이 Maia를 보는 건 학습 대체가 아니라 "Copilot/Foundry향 Claude inference의 token cost 절감"이다.

EK5

"Anthropic-AWS는 임차가 아니라 custom silicon partnership" — SemiAnalysis: Anthropic이 Trainium2의 유일한 대형 외부 end-user를 넘어 Amazon 내부 수요보다 큰 규모가 될 가능성, Annapurna Labs 설계 의사결정에 깊게 관여. Anthropic 입장에서는 자체 ASIC 회사를 안 만들면서도 칩 디자인을 자기 모델에 맞춤. 이게 Google DeepMind의 TPU 모델을 outsourced로 재현한 것.

EK6

"OpenAI-AWS Trainium 2GW (2026.02.27) = 시장이 가장 안 보고 있는 신호" — OpenAI가 Microsoft·NVIDIA의 우산을 벗어나 Anthropic의 AWS 칩을 쓰겠다고 commit. $138B 8년 deal에 Trn3·Trn4 포함. "Stateful Runtime, Frontier, advanced workloads"용. 즉 OpenAI도 inference cost를 NVIDIA 한 곳에 맡길 수 없다고 명시. AWS가 OpenAI Frontier의 exclusive third-party cloud distribution이 되는 효과까지.

Anthropic은 지금 사실상 "나는 칩 회사를 만들지 않지만, Amazon·Google·Microsoft가 나를 위해 칩 회사를 하게 만든다"는 전략을 쓰고 있다. Google DeepMind가 TPU로 한 hardware-software co-design을, Anthropic은 외주로 4곳에 분산해서 한다.

— V2 CORE INSIGHT · ATTRIBUTED FROM GPT FIELD RESEARCH

/ 04 — DECISION MATRIX

연구소 XPU 포트폴리오의
7가지 동시 최적화 변수

Frontier lab은 "어느 칩이 빠른가"를 보지 않는다. 7개 차원에서 동시 최적화하는 다중목적 문제다. 각 차원의 winner가 모두 달라서 결국 multi-vendor 포트폴리오로 귀결된다. V2 추가: 각 factor의 winner가 워크로드 quadrant별로 또 다르다는 점.

SUPPLY · 공급

NVIDIA Blackwell은 2026 mid까지 sold out. 36개월 대기. Anthropic·OpenAI는 자기 모델 학습 자체를 보장하기 위해 여러 공급선이 필수.

WINNER: Multi-vendor (single point of failure 회피)

COST · 원가

NVIDIA GM ~70%. 그게 hyperscaler cloud margin을 잠식. ASIC은 $/token을 30~50% 절감. Trainium 30~40% better price/perf vs P5e, Maia 200 "30% better $/token".

WINNER: Trainium3 · Maia 200 · TPU 8i

POWER · 전력

10MW pod 시대 — Texas·Ohio 전력 인프라가 binding constraint. Maia 200 750W가 GB300 1,400W의 절반. 같은 전력 envelope에서 2배 inference.

WINNER: Maia 200 / TPU 8i (perf/W)

NETWORK · 네트워크

모델 크기를 결정하는 핵심. TPU 8t의 9,600 chip pod (121 ExaFLOPS) vs TPU 8i의 Boardfly 1,152 chips (7-hop max) vs Trainium3 NL72x2의 144 chips.

WINNER: TPU 8t (training) · TPU 8i (inference)

LOCK-IN · 락인

CUDA에 갇히면 NVIDIA 가격에 갇힌다. Neuron / XLA / Maia SDK 모두 PyTorch·JAX 지원. NVIDIA NVLink Fusion → Trainium4 라이선싱은 lock-in 양보 신호.

WINNER: NVIDIA (still) · 도전: PyTorch·JAX

NEGOTIATION · 협상력

"NVIDIA가 유일 옵션이면 가격은 NVIDIA가 정한다" — alternative 칩 운용 능력이 협상 카드. AMD-OpenAI 1.6억 주 warrant가 대표 사례.

WINNER: Multi-vendor portfolio

MODEL · 모델 구조

MoE → switched all-to-all (Trainium3 / Boardfly). Reasoning → 큰 SRAM (Maia 272MB / TPU 8i 384MB). Long context → HBM bandwidth (TPU 7.4TB/s). 모델이 칩을 결정.

WINNER: use-case별 분산

각 칩의 7요소 점수 (정성 평가 0-10)

// 본 분석가 정성평가 — 절대값보다 상대 비교에 집중

/ 05 — LAB STRATEGIES V2 NUMBERS UPDATED

Anthropic vs OpenAI
실제 칩 포트폴리오 (최신 수치)

두 lab 모두 "frontier 게임"을 하지만 path가 다르다. Anthropic = 4-vendor 디스트리뷰터, OpenAI = self-design 프로듀서. V2에서는 2026년 1H에 추가된 새로운 numbers (OpenAI-AWS $138B, Anthropic-Google $200B 등) 반영.

ANTHROPIC

// 4-VENDOR DIVERSIFICATION · "DISTRIBUTOR"

AWS Trainium2/3/410Y $100B+ · 5GW · RAINIER

5 GW

Google TPU v7/8t/8i$200B / 5Y + BROADCOM 3.5GW

5+ GW

NVIDIA via Azure$30B AZURE + $15B NVDA INVEST

1 GW

Microsoft Maia 200IN TALKS · 2026.05.21

TBD

// THESIS Run-rate revenue: 2025말 $9B → 2026.04 $30B+. 연 $1M+ 고객 500개 → 1,000+개 (2개월). 이 성장에서 inference cost를 단일 vendor에 묶으면 P&L이 터진다. Anthropic은 "각 hyperscaler가 나를 위해 칩 회사를 하게 만드는" 전략을 사용. AWS는 Annapurna Labs를 사실상 custom silicon partner로 활용, Google은 Broadcom과 TPU 차세대 spec에 input, MS Maia는 옵션 가치. → 한국 운용역 시각: AVGO·MRVL·SKHynix 압승 구도, NVDA의 가격결정력은 inference 영역에서부터 잠식.

PORTFOLIO LOGIC

// 4-WAY EXPLAINED

TRAINIUM → CO-DESIGN PARTNER

Project Rainier 100만+ 칩. Trn2→Trn3→Trn4 transition. Anthropic이 Annapurna에 칩 설계 input. 다음 세대 칩이 Claude 아키텍처에 맞춤. primary training partner.

TPU → 추론 단가 곡선 베팅

TPU 8t/8i 분리로 inference 8i가 80% better perf/$ vs Ironwood. $200B/5y로 미리 락인. Google Cloud 백로그의 40%가 Anthropic.

NVIDIA → ecosystem fallback

MS·NVDA $15B 투자 + Grace Blackwell·Vera Rubin 최대 1GW. 새 모델 prototyping, 디버깅. Always-available baseline.

MAIA → 옵션가치 (option value)

MS $5B 투자 + $30B Azure spend commitment. Maia 200을 잠깐 빌려 쓰는 게 cost ≈ 0. 잘 되면 inference cost ↓, 안 되면 다른 3개 쓰면 됨.

OPENAI

// SELF-DESIGN + 33GW MULTI-DEAL · "PRODUCER"

NVIDIA$100B / 10GW · VERA RUBIN H2'26

10 GW

Broadcom XPUSELF-DESIGN · 2026 H2 → 2029

10 GW

AMD MI450+ 160M SHARE WARRANT

6 GW

AWS Trainium3/42026.02.27 · $100B 추가, 8Y

2 GW

Stargate (Oracle/SB)$500B · 10GW

10 GW

// THESIS OpenAI는 ChatGPT consumer scale 때문에 marginal token cost 압박이 Anthropic보다 빠르다. 그래서 Broadcom과 self-design 10GW로 칩 가치사슬 상승. 동시에 AMD warrant로 NVIDIA 대안 GPU vendor 확보. 총 commitment ~33GW + Stargate 10GW. → V2 신규: OpenAI-AWS Trainium 2GW (2026.02.27)는 시장이 가장 안 보는 신호. OpenAI도 Anthropic의 칩을 쓰겠다 = AWS Trainium 정당성 확보, NVDA 의존도 추가 축소.

PATH DIFFERENCE

// ANTHROPIC vs OPENAI

ANTHROPIC: 디스트리뷰터

기존 ASIC을 가진 클라우드 4곳과 deep partnership → "디자인 input"으로 자기 needs 반영. 칩 risk를 vendor에 outsource. capex-light, 협상력 분산.

OPENAI: 프로듀서

자기 칩 직접 디자인 (Broadcom = fabrication partner). 칩 risk 본인 책임이지만 control 100%. consumer scale ChatGPT의 marginal token cost를 직접 잡으려는 시도.

투자 함의

Anthropic 모델 = NVDA·AVGO·MRVL·GOOG·AMZN·MSFT·SKHynix 모두 winner. OpenAI 모델 = AVGO·MRVL 압승, hyperscaler ASIC lock-in 약화. AVGO는 양쪽 모두에서 핵심.

두 lab의 GW commitment 비교 (V2 업데이트)

// 공식 발표 기준 GW (Stargate 포함)

/ 06 — INVESTMENT IMPLICATIONS

투자 함의 정리

// MUST Asset 글로벌 제너럴리스트 시각으로 정리. V2에서는 KPI 변화 + TPU 8i / OpenAI-AWS deal 반영.

NVDA

중기 캐시카우, 장기 share loss 시작

2026~27까지는 default. 그러나 ① Trainium3 switched scale-up, ② TPU 8t/8i 분리, ③ OpenAI 자체 ASIC + AMD warrant, ④ NVLink Fusion 라이선싱으로 NVDA의 margin pricing power가 처음 시험대에. 특히 inference 영역에서 가장 먼저 share loss.

중기 매수 · 장기 trimming · ASIC share monitoring

AVGO

"silent winner" — 모든 시나리오의 enabler

OpenAI 10GW self-design + TPU 8t 디자인 + Anthropic-Google-Broadcom 3.5GW + MS 협업 가능성. 모든 시나리오에서 Broadcom이 fabrication·serdes·optical을 깐다. UBS EPS '28 $20+ vs consensus $15.80 = 27% upside.

강력 매수 · NVDA hedge

GOOG

TPU 8t/8i 분리 = AI infra 차별화

Q1'26 Cloud +63% YoY. Anthropic = 40% backlog (concentration risk). TPU 8t/8i 분리는 inference 시대에 가장 정교한 답. Blackstone JV (500MW, 2027)로 TPU 외부 클라우드 상품화 본격화.

중장기 매수 · Concentration monitoring

AMZN

Trainium3 = AWS margin 회복 catalyst

Anthropic + OpenAI 양쪽 다 anchor customer. 5GW (Anthropic) + 2GW (OpenAI) = 7GW Trainium commitment. NL32x2 air-cooled로 2026 빠른 ramp. AWS GPU compute COGS 30~40% 절감.

매수 · Trainium3 ramp 속도 catalyst

MSFT

Maia 200 외부 판매 시작 = late entrant 만회

Maia 1세대(2024) 지연으로 AWS·Google에 뒤쳐졌으나, Maia 200으로 FP4 efficiency · SRAM 영역에서 leadership 진입. Anthropic 딜이 성사되면 "Azure-internal only" frame 깨지며 외부 monetization.

홀드 · 딜 성사 catalyst

2ND DERIV

HBM · 광·전력 · ASIC enabler

HBM 수요 폭증 (SKHynix, Samsung, Micron). OCS·optical (COHR·LITE·CIEN), serdes (MRVL), thermal (VRT·SMCI). 전력 (CEG·VST, 한국 한전·두산)은 모든 시나리오에서 binding constraint.

분산 매수 · 한국 시각 SK하이닉스 핵심

/ 07 — SLACK PASTE

슬랙 복붙용 정리

팀 채널에 그대로 붙여넣을 수 있는 plain text V2 (확장).

📋 #global-research CTRL+C → 슬랙

📌 XPU 전쟁 V2 — Anthropic·OpenAI 칩 의사결정 분석 (2026.05.22) ▣ 3줄요약 1) AI 칩 경쟁은 "GPU vs ASIC"이 아니라 워크로드 4-분할(pre-train · post-train/RL · prefill · decode) 포트폴리오 싸움. 각 quadrant마다 winner가 다르고 frontier lab은 multi-vendor가 필수 2) 2026년 1H에 5개 사건이 시장 프레임을 깼다: ① OpenAI-AWS Trainium 2GW $138B (2.27), ② TPU 8t/8i 분리 (4.22), ③ Anthropic-Google $200B/5y (5.5), ④ Anthropic-Maia 협의 (5.21), ⑤ Trainium3 switched scale-up 출하 (12월) 3) KPI 자체가 바뀜: PFLOPS·HBM → "output tokens per megawatt", "cost per million tokens". 시장은 옛 KPI로 NVDA만 보는 동안 lab은 새 KPI로 4-vendor 분산 중 ▣ 한줄설명 시장은 칼 길이(TFLOPS)만 보지만 AI 회사들은 전쟁하려면 총알공장·전기·보급로까지 잡아야 해서 ASIC을 미친듯이 사는 것 ▣ 워크로드 4-Quadrant (핵심 프레임) - Pre-training (dense compute) → NVIDIA GB200/GB300/Vera Rubin · TPU 8t 도전 - Post-training/RL/Synthetic → Trainium2/3 · TPU 8t/8i 혼용 - Inference Prefill (long context) → TPU v7/8i · Maia 200 · GB300 - Inference Decode (token phase) → Trainium3 NL72x2 · TPU 8i Boardfly · Maia 200 (272MB SRAM) ▣ 2026 1H 주력 칩 스펙 - NVIDIA GB300 NVL72: FP4 15 PF / HBM3e 288GB·8 TB/s / NVLink 1.8 TB/s / 72-chip / 1,400W - Vera Rubin NVL144 (H2'26): FP4 ~50 PF / HBM4 288GB·13 TB/s / 144-chip / 3.6 ExaFLOPS rack - Trainium3 NL32x2: FP8 2.52 PF / HBM3e 144GB·4.9 TB/s / 64-chip switched · AIR-cooled · 빠른 deploy - Trainium3 NL72x2: 동일 칩, 144-chip switched · liquid-cooled · 4T+ MoE 겨냥 · 362 PF rack - TPU v7 Ironwood: FP8 4.614 PF / HBM3e 192GB·7.4 TB/s / 9,216 chip pod · 42.5 ExaFLOPS pod - TPU 8t (training, Broadcom): FP4 12.6 PF / 216 GB HBM / 9,600 chip pod · 121 FP4 ExaFLOPS · 2.8x perf/$ vs Ironwood - TPU 8i (inference, MediaTek): FP4 10.1 PF / 288 GB HBM / 384 MB SRAM (3x!) / Boardfly 1,152 chips / 7 hops (16↓7) · 80% better perf/$ - Maia 200: FP4 10 PF / FP8 5 PF / HBM3e 216GB·7 TB/s / 272MB SRAM / Ethernet 2.8 TB/s / 6,144 chip cluster / 750W - OpenAI XPU (Broadcom co-design): 10GW · 2026 H2 → 2029 · 자체 디자인 · 미공개 ▣ 유레카 6개 EK1 ▶ Trainium3 NL32x2 air-cooled가 진짜 시장침투 KEY. Liquid-ready 데이터센터 부족이 binding constraint, "느려도 빨리 깔리는 랙" 우위 EK2 ▶ TPU 8t/8i 분리 = "범용 AI 칩 시대 종료" 선언. Boardfly가 3D Torus의 16 hops를 7 hops로 줄임(56%↓). MediaTek 영입은 모바일 SoC 로직을 datacenter에 가져오는 비대칭 전략 EK3 ▶ NVDA NVLink Fusion → Trainium4 라이선싱 = NVDA의 "all margin in HW" 모델 끝나가는 신호. NVDA가 lock-in보다 ecosystem central을 택함 EK4 ▶ Maia 200의 272MB SRAM = chatbot KV cache HIT률 ↑. Anthropic이 Maia 보는 건 학습 대체가 아니라 Copilot/Foundry향 Claude inference cost 절감 EK5 ▶ Anthropic-AWS는 임차가 아니라 custom silicon partnership. Annapurna Labs를 사실상 Anthropic용 ASIC 회사로 운영. Google DeepMind-TPU 모델을 outsourced로 재현 EK6 ▶ OpenAI-AWS Trainium 2GW (2.27)는 시장이 가장 안 보는 신호. OpenAI도 Anthropic의 칩을 쓰겠다 = AWS Trainium 정당성 확보 + OpenAI의 NVDA 의존도 추가 축소 ▣ Anthropic vs OpenAI 전략 차이 - Anthropic: "디스트리뷰터" — 4-vendor diversification, AWS 5GW + Google 5GW + NVDA 1GW + Maia TBD. Run-rate $30B+ (2025말 $9B → 2개월만에 2배+) - OpenAI: "프로듀서" — 자체 ASIC 10GW + NVDA 10GW + AMD 6GW + AWS 2GW + Stargate 10GW. ChatGPT consumer scale의 marginal token cost 직접 잡으려는 시도 - 핵심 표현: Anthropic은 "나는 칩 회사 안 만들지만 Amazon/Google/Microsoft가 나를 위해 칩 회사를 하게 만든다" ▣ KPI 변화 (시장이 놓치는 부분) 구 KPI: PFLOPS / HBM GB / benchmark MFU / training time 신 KPI: output tokens per megawatt / cost per million tokens / latency p50·p99 / capex per GW → AWS Trn3 UltraServer는 Trn2 대비 megawatt당 output token 5x↑ 주장 (이 KPI 등장 자체가 신호) ▣ 투자 함의 (한국 운용역 시각) - NVDA: 중기 캐시카우 유지, 장기 share loss는 inference부터 시작. NVLink Fusion 라이선싱이 신호 - AVGO: silent winner 명제 강화. OpenAI 10GW + TPU 8t 디자인 + Anthropic-Google-Broadcom 3.5GW. UBS '28 EPS $20+ vs consensus $15.80 = 27% upside - GOOG: TPU 8t/8i 분리가 catalyst. Q1'26 Cloud +63% YoY, Anthropic 40% backlog concentration risk - AMZN: Anthropic 5GW + OpenAI 2GW = 7GW Trainium anchor. NL32x2 air-cooled로 빠른 ramp, AWS GPU COGS 30~40% 절감 - MSFT: Maia 200 외부 판매 catalyst. Anthropic 딜 성사 시 monetization - 2nd derivative: SKHynix (HBM), COHR/LITE/CIEN (optical), MRVL (serdes), CEG/VST (전력) — 기홍 / MUST AM Global Generalist Desk · V2 with workload quadrant framework

XPU 전쟁의 진짜 전선

왜 한 칩으로 끝낼 수 없는가:워크로드 4-Quadrant 프레임

Pre-Training

Post-Training · RL · Synthetic Data

Inference Prefill

Inference Decode

RPG 스타일 능력치 시트

주요 칩 능력치 레이더 (정규화 0-100)

Scale-Up Domain Size (log scale)

3-Way Topology War:3D Torus vs Switched vs Boardfly

3D Torus Mesh

Switched All-to-All

Boardfly Hierarchical

왜 이게 중요한가 — MoE Training Time Breakdown

유레카 포인트 (V2 확장)

연구소 XPU 포트폴리오의7가지 동시 최적화 변수

각 칩의 7요소 점수 (정성 평가 0-10)

Anthropic vs OpenAI실제 칩 포트폴리오 (최신 수치)

두 lab의 GW commitment 비교 (V2 업데이트)

투자 함의 정리

슬랙 복붙용 정리

XPU
전쟁의 진짜 전선

왜 한 칩으로 끝낼 수 없는가:
워크로드 4-Quadrant 프레임

3-Way Topology War:
3D Torus vs Switched vs Boardfly

연구소 XPU 포트폴리오의
7가지 동시 최적화 변수

Anthropic vs OpenAI
실제 칩 포트폴리오 (최신 수치)