“가장 빠른 칩”이 아니라 “가장 싼 토큰”
ChatGPT·Claude·Copilot이 커질수록 inference token cost가 손익계산서를 먹습니다. 그래서 ASIC은 절대성능보다 특정 workload의 원가 절감이 핵심입니다.
시장은 “Nvidia가 제일 좋고, XPU는 TPU 정도만 진짜”라고 보지만, 연구소들은 조금 다른 게임을 하고 있습니다. 핵심은 최고 칩 하나가 아니라, 향후 3~5년의 토큰 원가·전력·랙·HBM·네트워크·협상력을 누가 통제하느냐입니다.
일반 투자자는 칩 스펙표를 봅니다. 연구소는 자기 모델의 실제 workload를 넣은 비공개 원가곡선을 봅니다.
ChatGPT·Claude·Copilot이 커질수록 inference token cost가 손익계산서를 먹습니다. 그래서 ASIC은 절대성능보다 특정 workload의 원가 절감이 핵심입니다.
dense-only에서 MoE, long context, reasoning, agent workflow로 가면 병목은 연산만이 아닙니다. KV cache, SRAM, HBM, all-to-all network가 같이 중요해집니다.
Nvidia만 쓰면 가격·물량·로드맵 협상력이 약해집니다. XPU는 기술 선택이면서 동시에 “Nvidia 세금”을 낮추는 전략 카드입니다.
버튼을 눌러보면 Anthropic과 OpenAI가 XPU를 다르게 쓰는 이유가 보입니다.
Anthropic은 AWS·Google·Microsoft·Nvidia를 전부 열어두고 있습니다. 이건 Nvidia를 버리는 게 아니라, Claude의 미래 원가곡선을 여러 hyperscaler에게 나눠 심는 전략입니다.
OpenAI는 Nvidia와 10GW급으로 가면서도 Broadcom 자체 ASIC 10GW, AMD 6GW, AWS Trainium 2GW까지 엽니다. 핵심은 “모델은 우리 건데 원가는 남의 손에 둘 수 없다”입니다.
TPU는 XPU 중 가장 검증된 축입니다. Google은 TPU 8t/8i처럼 training과 inference/reasoning을 분리하며 workload별 칩 설계를 노골화하고 있습니다.
Maia 200은 inference accelerator입니다. Anthropic이 Maia를 논의한다면 Claude 학습보다 Azure/Copilot/Foundry향 Claude inference 원가를 낮추는 목적일 가능성이 높습니다.
각 칩은 “누가 더 빠르냐”가 아니라 “어떤 workload에서 돈을 벌어주냐”로 봐야 합니다.
최고의 범용 AI factory
가장 검증된 XPU
Claude용 원가곡선 카드
inference serving 카드
OpenAI·Google의 삽 파는 자
Trainium3의 핵심은 “Nvidia보다 무조건 빠름”이 아닙니다. MoE·reasoning inference에서 rack-scale 구조가 진지해졌다는 점입니다.
“Trainium은 AWS가 싸게 미는 칩. TPU는 진짜지만 Trainium은 Anthropic 전용에 가까운 거 아닌가?”
“Trainium3부터는 Claude workload에 맞춘 AWS식 rack-scale ASIC으로 봐야 한다.”
기존 torus 계열보다 MoE의 all-to-all collectives에 유리합니다. 토큰이 expert 사이를 왔다 갔다 할 때 network 병목을 줄이는 방향입니다.
AWS가 강조하는 건 PFLOPS보다 megawatt당 output token입니다. 데이터센터 시대의 진짜 KPI는 전력당 토큰 생산량입니다.
Anthropic은 자기 workload를 AWS에 사실상 전달하고, AWS는 Annapurna/Trainium 로드맵을 Claude에 맞춰 조정할 수 있습니다.
수치는 공개 자료 기준이며, workload·정밀도·utilization에 따라 단순 비교하면 안 됩니다. 그래도 방향성은 꽤 선명합니다.
아래 버튼을 누르면 어떤 환경에서 어떤 칩/기업이 유리한지 바로 볼 수 있습니다.
Nvidia가 끝난다는 얘기가 아닙니다. 다만 AI capex의 분배와 초과마진의 구조가 바뀔 수 있습니다.
슬랙에 한 문단으로 던질 때는 이 정도가 제일 깔끔합니다.
AI 칩 시장은 “Nvidia 독점이 끝난다”가 아니라, “Nvidia가 왕인 상태에서 대형 고객들이 왕의 세금을 줄이려고 각자 반란군을 키우는 구조”에 가깝습니다. Anthropic은 Amazon·Google·Microsoft의 ASIC 로드맵을 Claude 수요로 당기고 있고, OpenAI는 Nvidia를 크게 쓰면서도 Broadcom 자체 ASIC으로 미래 원가곡선을 직접 잡으려 합니다. 그래서 XPU 구매 딜을 볼 때 핵심 질문은 “Nvidia보다 빠른가?”가 아니라 “누가 AI lab의 미래 토큰 원가를 가장 낮춰줄 수 있나?”입니다.
본문에 반영한 주요 공개 자료입니다. 세부 수치는 각 회사 공식 자료와 업계 분석 기준입니다.