AI ASIC · XPU · 투자자용 맵

AI Lab은 왜 Nvidia 말고도
Trainium·TPU·Maia를 사는가?

시장은 “Nvidia가 제일 좋고, XPU는 TPU 정도만 진짜”라고 보지만, 연구소들은 조금 다른 게임을 하고 있습니다. 핵심은 최고 칩 하나가 아니라, 향후 3~5년의 토큰 원가·전력·랙·HBM·네트워크·협상력을 누가 통제하느냐입니다.

<3줄요약>

연구소들이 보는 질문은 “최고 칩이 뭐냐”가 아니라 “내 모델을 가장 싸고 크게 돌릴 수 있는 공급망이 뭐냐”입니다.

Anthropic은 AWS Trainium, Google TPU, Nvidia, Microsoft Maia를 나눠 쓰며 Claude용 멀티칩 포트폴리오를 만들고 있습니다.

Trainium3의 핵심은 단품 성능보다 switched scale-up입니다. MoE·reasoning·decode inference에서 원가곡선을 꺾으려는 설계입니다.

<똥멍청이용 1줄요약>
Nvidia는 제일 좋은 칼인데, AI 회사들은 전쟁하려면 칼 하나가 아니라 전기·창고·총알공장·보급로까지 잡아야 해서 ASIC을 사는 겁니다.

핵심 결론

TOKEN

이제 AI 칩 경쟁의 단위는 “PFLOPS”에서 “토큰 1개를 몇 원에 뽑느냐”로 이동 중입니다.

5GWAnthropic–AWS Trainium 장기 용량

10GWOpenAI–Broadcom 자체 ASIC 목표

1M+Anthropic의 Google TPU 최대 사용 계획

144칩Trainium3 UltraServer scale-up domain

왜 XPU인가?
질문 자체가 바뀌었습니다.

일반 투자자는 칩 스펙표를 봅니다. 연구소는 자기 모델의 실제 workload를 넣은 비공개 원가곡선을 봅니다.

관점 1

“가장 빠른 칩”이 아니라 “가장 싼 토큰”

ChatGPT·Claude·Copilot이 커질수록 inference token cost가 손익계산서를 먹습니다. 그래서 ASIC은 절대성능보다 특정 workload의 원가 절감이 핵심입니다.

관점 2

모델 구조가 바뀌고 있습니다

dense-only에서 MoE, long context, reasoning, agent workflow로 가면 병목은 연산만이 아닙니다. KV cache, SRAM, HBM, all-to-all network가 같이 중요해집니다.

관점 3

공급권과 협상력

Nvidia만 쓰면 가격·물량·로드맵 협상력이 약해집니다. XPU는 기술 선택이면서 동시에 “Nvidia 세금”을 낮추는 전략 카드입니다.

연구소별 의사결정 맵

버튼을 눌러보면 Anthropic과 OpenAI가 XPU를 다르게 쓰는 이유가 보입니다.

Claude 중심 포트폴리오

Anthropic: 칩 회사를 만들지 않고, 칩 회사들이 Claude를 위해 움직이게 만든다

Anthropic은 AWS·Google·Microsoft·Nvidia를 전부 열어두고 있습니다. 이건 Nvidia를 버리는 게 아니라, Claude의 미래 원가곡선을 여러 hyperscaler에게 나눠 심는 전략입니다.

AWS Trainium최대 5GW, Trainium2~4 포함. AWS가 primary training/cloud provider 역할.

Google TPU최대 100만 TPU, 1GW+ 용량. 검증된 XPU 축.

Microsoft Maia초기 논의. 학습보다 Claude inference 원가 절감 옵션.

NvidiaGrace Blackwell / Vera Rubin 기반 최고성능·범용성 축.

학습 안정성Nvidia와 TPU는 검증된 축. 실패하면 수천억이 날아가므로 안전한 선택지를 유지합니다.

Claude 맞춤형 ASICAWS Trainium은 Anthropic workload에 맞춘 co-design 성격이 강합니다.

MoE·reasoning inferenceTrainium3 switched scale-up은 decode와 expert routing 병목을 겨냥합니다.

협상력 확보여러 공급자를 열어두면 Nvidia, Google, AWS, Microsoft 모두 더 좋은 조건을 제시해야 합니다.

초대형 compute 국가사업

OpenAI: Nvidia를 가장 크게 쓰면서, 동시에 Nvidia 종속을 깨는 중

OpenAI는 Nvidia와 10GW급으로 가면서도 Broadcom 자체 ASIC 10GW, AMD 6GW, AWS Trainium 2GW까지 엽니다. 핵심은 “모델은 우리 건데 원가는 남의 손에 둘 수 없다”입니다.

Nvidia 10GWfrontier training과 범용성의 핵심 축.

Broadcom 자체 ASIC 10GWOpenAI-designed accelerator. 장기 원가곡선의 핵심 옵션.

AMD 6GWNvidia 대체 GPU 축이자 공급·가격 협상력 카드.

AWS Trainium 2GWadvanced workloads와 intelligence production cost 절감 목적.

단기: Nvidia로 안전하게 간다가장 성숙한 소프트웨어와 rack-scale 생태계를 버릴 이유는 없습니다.

중기: AMD/AWS로 협상력 확보GPU·ASIC 모두 멀티소싱하면서 가격결정권을 분산합니다.

장기: Broadcom 자체 ASICChatGPT-scale consumer traffic에서는 marginal token cost가 기업가치를 좌우합니다.

결론Nvidia bullish는 유지되지만, 독점 프리미엄은 점점 challenge 받습니다.

검증된 XPU 왕국

Google / DeepMind: TPU는 이미 10년 넘게 굴린 자체 AI factory

TPU는 XPU 중 가장 검증된 축입니다. Google은 TPU 8t/8i처럼 training과 inference/reasoning을 분리하며 workload별 칩 설계를 노골화하고 있습니다.

TPU 8t대규모 pre-training용. HBM과 interconnect 중심.

TPU 8isampling, serving, reasoning용. 큰 SRAM과 inference 최적화.

Anthropic TPU 딜외부 frontier lab이 TPU를 대규모로 쓰는 대표 사례.

Blackstone TPU cloudTPU를 내부칩에서 외부 상품으로 키우는 움직임.

소프트웨어·컴파일러 성숙도TPU는 XLA/JAX/Gemini/DeepMind workload와 오래 묶여 있습니다.

Broadcom supply chain대규모 ASIC 조달에서 가장 검증된 파트너 구조입니다.

워크로드별 SKU 분리8t와 8i 분리는 AI가 training과 inference가 완전히 다른 게임이라는 선언입니다.

투자적 의미TPU는 더 이상 Google 내부용 장난감이 아니라 Nvidia 대체 cloud infra 상품이 되고 있습니다.

Inference 원가 카드

Microsoft Maia: 학습 왕좌가 아니라 Copilot·Claude serving 비용을 노린다

Maia 200은 inference accelerator입니다. Anthropic이 Maia를 논의한다면 Claude 학습보다 Azure/Copilot/Foundry향 Claude inference 원가를 낮추는 목적일 가능성이 높습니다.

Maia 2003nm, FP8/FP4, 216GB HBM3e, 272MB SRAM.

Microsoft 365 Copilot내부 inference workload로 먼저 깔리는 구조.

OpenAI 모델GPT-5.2 등 자체 fleet 내 serving 적용.

Anthropic 논의외부 frontier model 레퍼런스 확보 가능성.

큰 SRAM챗봇 serving에서 자주 쓰는 데이터 이동을 줄여 latency와 throughput을 개선할 수 있습니다.

Azure lock-inMicrosoft는 자체칩으로 Azure AI margin을 방어해야 합니다.

Anthropic 외부 레퍼런스Claude가 Maia에서 돌아가면 Maia가 내부용을 넘어 상용 inference ASIC으로 인정받습니다.

한계당장 frontier training 대체재로 보면 과합니다. 현재 핵심은 serving economics입니다.

칩별 포지션
클릭해서 비교하기

각 칩은 “누가 더 빠르냐”가 아니라 “어떤 workload에서 돈을 벌어주냐”로 봐야 합니다.

🟩

Nvidia Blackwell

최고의 범용 AI factory

training · inference · CUDA · NVLink

🔵

Google TPU

가장 검증된 XPU

DeepMind · Gemini · Anthropic

🟠

AWS Trainium3

Claude용 원가곡선 카드

switched scale-up · MoE · AWS

🟣

Microsoft Maia

inference serving 카드

Copilot · Azure · SRAM

⚙️

Broadcom ASIC

OpenAI·Google의 삽 파는 자

custom ASIC · networking

Trainium3 breakout은
어디서 나오나?

Trainium3의 핵심은 “Nvidia보다 무조건 빠름”이 아닙니다. MoE·reasoning inference에서 rack-scale 구조가 진지해졌다는 점입니다.

기존 시장 시각

“Trainium은 AWS가 싸게 미는 칩. TPU는 진짜지만 Trainium은 Anthropic 전용에 가까운 거 아닌가?”

이 시각이 완전히 틀린 건 아닙니다. Trainium2까지는 CUDA 생태계 대비 개발 난이도와 소프트웨어 성숙도에 의문이 있었고, 외부 대형 레퍼런스도 Anthropic 의존도가 컸습니다.

연구소/인프라 시각

“Trainium3부터는 Claude workload에 맞춘 AWS식 rack-scale ASIC으로 봐야 한다.”

Trainium3는 3nm, HBM3e, NeuronSwitch all-to-all fabric, 144칩 UltraServer로 갑니다. 특히 switched scale-up은 MoE decode와 expert routing 병목을 겨냥한 변화입니다.

Breakout 1

Switched scale-up

기존 torus 계열보다 MoE의 all-to-all collectives에 유리합니다. 토큰이 expert 사이를 왔다 갔다 할 때 network 병목을 줄이는 방향입니다.

Breakout 2

Output token per MW

AWS가 강조하는 건 PFLOPS보다 megawatt당 output token입니다. 데이터센터 시대의 진짜 KPI는 전력당 토큰 생산량입니다.

Breakout 3

Anthropic co-design

Anthropic은 자기 workload를 AWS에 사실상 전달하고, AWS는 Annapurna/Trainium 로드맵을 Claude에 맞춰 조정할 수 있습니다.

숫자로 보는 핵심 비교

수치는 공개 자료 기준이며, workload·정밀도·utilization에 따라 단순 비교하면 안 됩니다. 그래도 방향성은 꽤 선명합니다.

5GWAnthropic–AWS Trainium 최대 장기 용량Trainium2~4 포함

10GWOpenAI–Broadcom 자체 ASIC 배포 목표2026년 하반기부터 랙 배포 시작

2GWOpenAI–AWS Trainium 사용 약정advanced workloads 및 원가 절감 목적

1M+Anthropic의 Google TPU 최대 사용 계획외부 frontier lab의 TPU 대형 채택

144GBTrainium3 칩당 HBM3e칩당 4.9TB/s bandwidth

20.7TBTrainium3 UltraServer HBM144칩 scale-up domain

216GBMicrosoft Maia 200 HBM3e큰 SRAM과 inference 최적화

192GiBGoogle Ironwood 칩당 HBMTPU inference 세대의 대형 메모리

144칩Trainium3 UltraServer scale-upNeuronSwitch all-to-all fabric

72GPUNvidia GB200 NVL72NVLink rack-scale coherence

9,216칩Google Ironwood podTPU pod-scale 확장

$/token핵심 투자 KPIPFLOPS보다 토큰 원가가 중요

시나리오별 승자

아래 버튼을 누르면 어떤 환경에서 어떤 칩/기업이 유리한지 바로 볼 수 있습니다.

투자 관점 핵심

Nvidia가 끝난다는 얘기가 아닙니다. 다만 AI capex의 분배와 초과마진의 구조가 바뀔 수 있습니다.

Nvidia는 frontier training, 범용 GPU cloud, 신규 모델 실험, 개발자 생태계에서 계속 핵심입니다. 하지만 inference가 커질수록 hyperscaler와 AI lab은 ASIC으로 marginal token cost를 낮추려 합니다. 독점 프리미엄이 압박받는 구간은 특히 serving 쪽입니다.

Google TPU, OpenAI 자체 ASIC, 네트워킹, custom silicon에서 Broadcom의 포지션이 강합니다. Nvidia 독점이 조금이라도 흔들릴수록 ASIC 설계/네트워킹 shovel seller의 가치가 올라갑니다.

Trainium2는 Anthropic 덕분에 볼륨이 생긴 정도였다면, Trainium3는 switched scale-up, HBM3e, 144칩 UltraServer, 5GW Anthropic 수요가 붙습니다. 여기서 실사용 token economics가 증명되면 AWS AI infra narrative가 크게 바뀔 수 있습니다.

TPU 8t/8i 분리는 Google이 training과 inference를 다른 시장으로 본다는 뜻입니다. Anthropic 대형 TPU 딜과 TPU cloud 상품화는 Google Cloud의 AI infra 경쟁력을 다시 보게 만드는 포인트입니다.

Maia는 Copilot, Azure AI, OpenAI/Anthropic serving traffic에서 원가를 낮추는 역할이 중요합니다. 외부 frontier model이 Maia를 쓰기 시작하면 Microsoft 자체칩 전략의 신뢰도가 크게 올라갑니다.

한 장으로 보는 결론

슬랙에 한 문단으로 던질 때는 이 정도가 제일 깔끔합니다.

최종 정리

AI 칩 시장은 “Nvidia 독점이 끝난다”가 아니라, “Nvidia가 왕인 상태에서 대형 고객들이 왕의 세금을 줄이려고 각자 반란군을 키우는 구조”에 가깝습니다. Anthropic은 Amazon·Google·Microsoft의 ASIC 로드맵을 Claude 수요로 당기고 있고, OpenAI는 Nvidia를 크게 쓰면서도 Broadcom 자체 ASIC으로 미래 원가곡선을 직접 잡으려 합니다. 그래서 XPU 구매 딜을 볼 때 핵심 질문은 “Nvidia보다 빠른가?”가 아니라 “누가 AI lab의 미래 토큰 원가를 가장 낮춰줄 수 있나?”입니다.