PRICED2026.05.13 @ $185 LISTING2026.05.14 NASDAQ TICKERCBRS RANGE$150–$160 → ABOVE SHARES OUT215.23M OVERSUB24.0× RAISE$5.55B REPORT REV.v2.0
CBRS/EQUITY RESEARCH/IPO PREVIEW/SEMICONDUCTORS — AI ACCELERATORS

Cerebras SystemsNASDAQ : CBRS

2026년 글로벌 최대 AI 인프라 IPO. 공모가 $185 above-range pricing, 발행 주식수 215.23M주, 상장 시총 $39.8B (Fully Diluted $56.4B)로 5월 14일 나스닥 데뷔. 당초 $115–$125 → $150–$160 → 최종 $185로 2주 만에 가격 +57% 인상, 24× 초과청약 흡수. OpenAI와의 $20B+ 다년 계약(750MW + 1.25GW 옵션)·AWS Bedrock 분해형 추론 통합이라는 양대 카드를 손에 쥐었다. 그러나 매출의 86%가 UAE 두 곳, 보고된 $238M 흑자의 대부분이 비현금 회계 이익, 그리고 2026 Q3 결산 +2영업일 락업 만료 시 ~171M주 잠재 매물이 동시에 존재한다. 본 보고서는 (i) SEC S-1/A · (ii) 사전 분석 보고서 두 종 · (iii) SemiAnalysis "Cerebras — Faster Tokens Please" (2026.05.13) · (iv) 추가 IPO 프리뷰 자료를 교차 검증·통합한 분석이다.

공모가 (FINAL)
$185
$115–$125 → $150–$160 → above
상장 시가총액
$39.8B
215.23M × $185
FDV (참고)
$56.4B
+ OpenAI/AWS 워런트/임직원 옵션
조달 금액
$5.55B
24× oversubscribed
OpenAI MRA
$20B+
750MW + 1.25GW 옵션 → 2GW
매수 의견
WATCH
분할 관망 · 3-Gate
01

핵심 요약 및 투자 의견

EXECUTIVE SUMMARY
투자 의견 · WATCH
분할 관망 — 시초가 추격 매수 비권고
공모가 $185 above-range pricing(2주 만에 +57% 인상)은 24× 초과청약·OpenAI/AWS 후광·sovereign AI 테마에 따른 시초가 추가 프리미엄(30–80%)을 시사하나, 공모가 +33% Price Trigger에서 비임원 직원 보유 Class B 7.5%가 즉시 해제되는 비표준 구조와 단 두 UAE 관계사가 매출의 86%를 차지하는 집중도가 12–24개월 보유 관점에서 밸류에이션 부담을 정당화하지 못한다. 시초가 폭등(P/S 100×+ / 시총 $50B+) 시 미진입, 180일 또는 Q3 2026 결산 +2영업일 중 빠른 시점(2026.11 추정) 락업 만료 후 ~171M주 매물 흡수 여부와 Q2/Q3 실적의 비-UAE 매출 다각화를 확인한 후 분할 매수가 합리적이다.
매수 전 통과 게이트 (3-Gate)
  1. 락업 매물 흡수 — 2026 Q4, ~171M주 해제 후 가격 회복 확인
  2. 매출 다각화 — UAE 비중 < 50%, OpenAI 분기 매출 인식 가시화
  3. NVDA 상대강도 — 12개월 NVDA 대비 +30%p 이상

BULL CASE

AI 추론 TAM 5년 2.7× ($251B → $672B, BBG Intelligence), Decode 단계 메모리 대역폭 우위 21 PB/s vs B200 8 TB/s (~2,625×), OpenAI MRA $20B+ + 1.25GW 옵션(총 2GW까지), AWS Bedrock GA(2026 H2), $24.6B RPO 백로그, 1,000+ t/s "Faster Tokens" 가격 프리미엄 가능성.
상방 시나리오 12M Target $300+ / +62%

BEAR CASE

매출 86% UAE 집중, $238M 흑자의 비현금 익스팅귀시먼트 $363M 포함 → 실질 non-GAAP 순손실 -$75.7M, 영업 CF $452M → -$10M 급반전, NVDA Dynamo + Vera Rubin + Groq 흡수(Feldman's Formula로 보면 dense FP16 15.6 PFLOPS, B300 13.5 vs WSE-3 15.6로 좁아진 격차), 150 GB/s 네트워킹 한계, TSMC 5nm 단일 파운드리, Class B 락업 비표준.
하방 시나리오 12M Target $110–130 / -35%

BASE CASE

시초 +30–60% 프리미엄 안착 후 락업·실적 변동성 횡보 ($240–$295 박스), Q4 2026 ~171M주 매물 흡수 후 OpenAI/AWS 매출 실현으로 점진 상승. 2027 forward P/S 25× 정상화 시 시총 $50–60B 박스권.
중립 시나리오 12M Target $185–$240 / 0–30%
02

IPO 공모 조건 및 인상 시퀀스

OFFERING TERMS

2주 만에 공모가 +57% 인상($115–$125 → $150–$160 → 최종 $185)과 24× 초과청약은 인수단(Morgan Stanley · Citi · Barclays · UBS)의 가격결정에서 시초가 폭등을 사전에 흡수하려는 의도적 조정의 결과다. 발행 주식 수는 28M → 30M으로 확대, Hiive 사적시장 5/11 거래가 $187.53와 사실상 일치하는 above-range pricing이다.

2026.04.17
$23B
최초 S-1 제출 / Series H 사적 valuation
2026.05.04 · S-1/A
$115–$125
28M주 · 시총 ~$26.6B · 첫 공식 밴드
2026.05.11 · S-1/A 수정
$150–$160 +28%
30M주 · 시총 ~$32–34B (당시 listed 기준)
2026.05.13 · FINAL
$185 +57%
above-range · 24× oversub · 시총 $39.8B
📍 한국 시간 5/14(목) 22:30 정규장 개시 → 5/15(금) 새벽 0~1시 KST 시초가 형성

공모 구조 (Final Offering Structure)

최종 공모가$185.00
상장 시 총 발행 주식수215,228,541주
그린슈 행사 시219,728,541주
└ Class A (공모, 1 vote)30,000,000주
└ Class A + 그린슈+4,500,000주
└ Class B (인사이더, 20 votes)185,228,541주
총 조달액 (excl. greenshoe)$5.55B
상장 시가총액$39.8B
Fully Diluted 시총 (참고)$56.4B
└ OpenAI Class N 워런트33.4M @ $0.00001
└ AWS Class N 워런트2.7M @ $100
└ 임직원 옵션/RSU 등 잔여~5–10% dilution
트레일링 P/S (2025 $510M 기준)~78× / FDV 110×
참고: NVDA forward P/S~25×

인수단 · 자본 이력 · 일정

Lead BookrunnersMS · Citi · Barclays · UBS
Additional BookrunnersMizuho · TD Cowen
Co-managers (8)Needham · Wedbush · Rosenblatt · Academy · FCB · MUFG · CASA · BNY
CFIUS 클리어런스2025.03.31
Series G ($1.1B)2025.09 @ $8.1B
OpenAI 운전자본 대출$1.0B · 6% · '32.12 만기
Series H ($1.0B, Tiger lead)2026.02 @ $23B
총 누적 사적 자본~$2.6B (Seed–H)
사적시장 (Hiive) 5/11$187.53
직원 수 (2025.12.31)708명
Polymarket — 첫날 시총 >$50B90.5%
참고: 상장 시가총액 $39.8B와 FDV $56.4B의 차이($16.6B)는 OpenAI 워런트(33.4M주 @ $0.00001) · AWS 워런트(2.7M주 @ $100) · 임직원 옵션·RSU 잔여분 등 dilutive securities의 풀 베스팅 가정 시 발생. OpenAI 워런트는 약정 컴퓨트 매입에 따른 단계적 베스팅이므로 즉시 dilution 효과는 제한적이다.
03

재무 분석 — 흑자의 회계적 착시

FINANCIAL TEARDOWN

매출은 4년 만에 20×, 표면 GAAP 순이익 $237.8M으로 흑자전환. 그러나 흑자의 정체는 G42 forward contract 비현금 익스팅귀시먼트 $363.3M이며, 이를 제외한 non-GAAP 순손실은 -$75.7M, GAAP 영업손실은 -$145.9M으로 오히려 확대되었다. 미국 매출은 절대 금액 기준 $282.7M → $187.6M으로 -34% 감소했고, 모든 성장은 UAE 청구에서 발생했다.

총 매출 (Revenue)
2022$24.6M
2023$78.7M+220%
2024$290.3M+269%
2025$510M+76%
매출 구성 (2025)
HW$358M
Cloud$152M
GM~39%
RPO$24.6B
GAAP 영업손실
2024-$101M
2025-$146M악화
N-GAAP-$75.7M
YoY-247%
미국 매출 (Domestic)
2024$282.7M
2025$187.6M-34%
비중36.8%
UAE~$322M

GAAP 순이익 $237.8M의 분해 (Bridge)

GAAP 영업손실
-$146M
실질 영업기반 적자 확대
+
비현금 익스팅귀시먼트
+$363M
G42 forward contract 재평가
=
GAAP 순이익 (보고)
+$238M
"흑자전환"의 정체
※ 시장에서 회자되는 "47% 순이익률"은 오해 유발 수치. 영업기반 자유현금흐름은 마이너스 구간이 지속되고 있으며, 향후 750MW OpenAI 약정 컴퓨트 제공을 위한 30,000+대 CS-3 제조에는 추가 follow-on offering 가능성이 높다. S-1/A는 재무보고 내부통제 관련 두 가지 material weakness를 공시 (SOX 404(b) 5년 면제 가능).

매출 추이 시각화 (2022–2025) · RPO 백로그 대비

2022 매출
$24.6M
2023 매출
$78.7M
2024 매출
$290.3M
2025 매출
$510M
RPO (백로그)
$24.6B
04

고객 집중도 — UAE 86%

CUSTOMER CONCENTRATION

첫 IPO 시도(2024.9)를 무산시킨 G42 단일 집중 문제는 본질적으로 해소되지 않았으며, 2024년 G42 85% 단일 → 2025년 MBZUAI 62% + G42 24% 합산 86%로 "이전"되었을 뿐이다. 양사는 ASC 850 기준 관계기업이며 매출채권은 MBZUAI 단독 77.9%. 다가오는 OpenAI MRA가 매출의 substantial portion을 차지하면 집중도는 "UAE → OpenAI"로 다시 한 번 이전될 가능성이 높다.

2025 매출 $510M — 고객별 분해 (S-1/A + 로드쇼 명시)

고객 2025 매출 비중 비고
MBZUAI (UAE 정부 AI 대학원) $316M 62% 학술/연구용, 정치 risk 낮음
G42 (UAE 정부 commercial AI) $122M 24% 2024 85% → 2025 24% 큰 폭 감소
→ UAE 합계 (관계기업, ASC 850) $438M 86% 매출채권 MBZUAI 단독 77.9%
OpenAI (2025 H2 시작, ChatGPT) $26M 5% 2026~ MRA 본격 인식 (Codex-Spark)
정부 · 연구 · 엔터프라이즈 · 기타 $46M 9% DoE, Mayo Clinic, Meta, IBM 등 분산
2024년 매출 분포총 $290.3M
G42 · 85%
기타 · 15%
2025년 매출 분포 — UAE 합산 86%총 $510M
MBZUAI · 62%
G42 · 24%
엔터프라이즈 · ~9%
기타 · ~5%
2026E 시나리오 (OpenAI MRA 인식 시작 가정)RPO $24.6B 점진 인식
MBZUAI · ~35%
G42 · ~12%
OpenAI · ~30%
AWS/Enterprise · ~15%
기타 · ~8%
※ 2026 시나리오는 RPO 인식 가정에 따른 작성자 추정. 실제는 OpenAI tranche 일정에 따라 달라질 수 있음.
MBZUAI (Mohamed bin Zayed Univ. of AI) G42 (Abu Dhabi) OpenAI MRA AWS / Enterprise

관계기업 (Related Party — ASC 850)

MBZUAI 매출 비중 (2025)62.0%
G42 매출 비중 (2025)24.0%
G42 매출 비중 (2024)85.0%
MBZUAI 매출채권 비중77.9%
G42 약정 (Commitment)$1.43B
Condor Galaxy 1–336 EF FP16

핵심 시사점

단일 카운터파티 리스크가 두 경로로 표면화 가능. ① 지정학 — UAE deemed export license 갱신이 미국 BIS 정책 변동(중동 일부 제한)에 노출. ② 매출 인식 시점 — 프로젝트형 매출의 lumpiness로 분기 실적 변동성 증폭.

한편 미국 매출 절대금액 -34%는 "Cerebras가 미국 본토 엔터프라이즈를 잃고 있는가"라는 질문을 제기한다. AWS Bedrock GA(2026 H2)가 이 추세를 반전시킬지가 향후 12개월의 결정적 관전 포인트.

2026 GM dip 사유 — G42 "Rentback": Cerebras가 G42에 판매했던 시스템을 다시 임차해 자체 Cerebras Cloud로 운영하는 구조 진입. 매출 인식이 hardware sale → cloud service 모델로 부분 전환되면서 2026년 매출총이익률 일시 하락 예상. 단기 이익률 압박은 있으나 향후 cloud 비중 확대로 ARR 안정화 기대.
05

기술 비교 — WSE-3 vs NVIDIA

ARCHITECTURE

Cerebras는 reticle limit(다이당 ~858 mm²)을 무시하고 스크라이브 라인에 배선을 깔아 웨이퍼 한 장 전체를 하나의 칩으로 사용한다. 그 결과 다이 면적 46,225 mm²(H100의 57×), on-chip SRAM 44GB · 메모리 대역폭 21 PB/s — H100 HBM3 3.35 TB/s 대비 약 6,300배. 약점은 명확하다. 칩 간 네트워킹(클러스터링)이 NVLink 인프라 대비 약하고, 절대 메모리 용량이 작아 큰 모델·큰 KV cache가 안 들어가며, 웨이퍼 전체 활용으로 수율 부담이 가격에 전가된다.

WSE-3
Cerebras · 2024
공정TSMC N5
다이 면적46,225 mm²
트랜지스터4,000B
AI 코어900,000
온칩 메모리44 GB SRAM
메모리 대역폭21 PB/s
FP16 Peak125 PFLOPS
시스템 (CS-3)15U · 23 kW
H100
NVIDIA · 2022 (Hopper)
공정TSMC 4N
다이 면적814 mm²
트랜지스터80B
CUDA 코어16,896
HBM80 GB HBM3
메모리 대역폭3.35 TB/s
FP16 Peak~2 PFLOPS
랙 (DGX H100)8 GPU · 10 kW
H200
NVIDIA · 2024 (Hopper Refresh)
공정TSMC 4N
다이 면적814 mm²
트랜지스터80B
CUDA 코어16,896
HBM141 GB HBM3e
메모리 대역폭4.8 TB/s
FP16 Peak~2 PFLOPS
메모리 풀대용량 KV 친화
B200 / GB200
NVIDIA · 2024 (Blackwell)
공정TSMC 4NP
다이 (dual-die)~1,600 mm²
트랜지스터208B
Tensor 등가~33,000
HBM192 GB HBM3e
메모리 대역폭8 TB/s
FP16 Peak~4.4 PFLOPS
NVL72 랙72 GPU · 120 kW

메모리 대역폭 비교 (로그 스케일) — Decode 단계의 본질적 우위

H100 HBM3
3.35 TB/s
H200 HBM3e
4.8 TB/s
B200 HBM3e
8 TB/s
WSE-3 SRAM
21 PB/s
※ 선형 스케일. H100 대비 WSE-3 약 6,268×. 단, 메모리 용량은 H100 80GB 대비 WSE-3 44GB로 약 55% 수준 — 절대 용량 한계가 큰 모델 적재에는 약점.

WSE-3 강점

  • · On-chip SRAM 21 PB/s — Decode (메모리 바운드) 단계 절대 우위
  • · 단일 칩에 모델 적재 시 통신 비용 0 (NCCL 오버헤드 없음)
  • · Defect tolerance (코어 ~0.05 mm² + redundant cores) → 100× 수율 개선 주장
  • · 24T 파라미터 모델까지 단일 시스템 처리 (MemoryX 외부 메모리)
  • · 최대 2,048 CS-3 클러스터 → 256 EF FP16

WSE-3 약점 (Bottlenecks)

  • · 칩 간 네트워킹 — NVLink/InfiniBand 대비 약함 → Training 분산 효율 ↓
  • · 절대 메모리 용량 44GB SRAM → 큰 KV cache·큰 모델 적재 한계
  • · 외부 MemoryX 사용 시 데이터 입출력 지연 → 온칩 대역폭 장점 일부 희석
  • · 웨이퍼 전체 활용 → 단가 ↑, TSMC N5 단일 의존 → 캐파 리스크
  • · CUDA 생태계 부재 — cuDNN/TensorRT/Triton 등 라이브러리 풍부도 절대 열세
06

Inference 3단계 구조와 메모리 대역폭 병목

INFERENCE FUNDAMENTALS

LLM 추론은 세 단계로 구성되며 각 단계의 병목 위치가 다르다. Prefill은 컴퓨트 바운드(병렬), Decode 1·2단계는 메모리 대역폭 바운드(직렬). Decode가 곧 토큰 생성 속도이며, 디코드는 메모리에 묶인다는 사실이 Cerebras의 21 PB/s SRAM 아키텍처가 가지는 본질적 가치다. SemiAnalysis는 이를 throughput–interactivity Pareto frontier로 정식화한다 — HBM 기반 GPU는 곡선 좌측(낮은 interactivity, 높은 throughput), SRAM 머신(Cerebras·Groq)은 곡선 우측(높은 interactivity, off-the-chart 토큰 속도) 영역을 점유한다.

Stage 1
Prefill
입력 인코딩 · 초기 KV cache 생성
병렬성병렬 (Parallel)
병목Compute-bound
필요 자원TFLOPs
중요 지표행렬곱 처리량
유리한 진영: NVIDIA GPU — Tensor Core + CUDA 최적화 라이브러리(cuBLAS, FlashAttention)로 압도적 효율
Stage 2
Decode 1 (Attention)
KV cache 읽기 · 어텐션 스코어 계산
병렬성직렬 (Serial)
병목Memory BW
필요 자원GB/s 대역폭
중요 지표캐시 적중률 + BW
유리한 진영: Cerebras WSE-3 — 21 PB/s 온칩 SRAM, H100 HBM 대비 ~6,300×
Stage 3
Decode 2 (FFN)
model weight 읽기 · 피드포워드 통과
병렬성직렬 (Serial)
병목Memory BW
필요 자원가중치 streaming
중요 지표파라미터/sec
유리한 진영: Cerebras WSE-3 — 단, 모델이 44GB SRAM에 안 들어가면 외부 MemoryX 의존

실측 토큰 처리량 (벤더 벤치마크) — Decode 우위의 실현

Llama 3.1 70B · H100
~22.5 t/s
Llama 3.1 70B · B200
~105 t/s
Llama 3.1 70B · Groq
~544 t/s
Llama 3.1 70B · WSE-3
2,100 t/s
Llama 4 Maverick (400B) · WSE-3
2,500+ t/s
Llama 4 Maverick · DGX B200
~1,000 t/s
※ 모든 수치는 벤더 발표 또는 Artificial Analysis 측정치. 워크로드별 차이 큼. WSE-3는 Llama 3.1 405B에서도 969 t/s 기록.

Throughput × Interactivity Pareto Frontier (SemiAnalysis InferenceX)

Jensen Huang(GTC 2026)가 강조한 추론의 본질적 트레이드오프 — throughput (tok/s/GPU) vs interactivity (tok/s/user). InferenceX 측정에 따르면 GB300 NVL72는 40 tps에서 H100 대비 20× throughput, 120 tps에서는 100× throughput으로 확장된다. SRAM 머신(Cerebras·Groq)은 interactivity 축 우측에서 "off the chart" — HBM 기반 가속기로는 도달 불가능한 1,000+ tps 영역을 점유한다.

THROUGHPUT (tok/s/GPU) INTERACTIVITY (tok/s/user) → 0 40 100 500 1,500 2,500+ FLOW STATE 100–150 tps H100 GB300 NVL72 Cerebras / Groq (extends frontier →)
※ Source: SemiAnalysis InferenceX, GTC 2026. SemiAnalysis 자체 AI 지출(연간 ~$10M)의 80%가 Anthropic Opus 4.6 Fast에 발생 — 6× 가격으로 2.5× 속도 제공. 이것이 "사람들이 더 빠른 토큰에 더 많은 돈을 낸다"는 revealed preference의 실증. Karpathy는 과거 "raw intelligence가 더 중요"라 했으나, 일정 지능 임계점을 넘은 후 개발자들은 스마터 토큰 대신 빠른 토큰을 선호.

Feldman 로드쇼 직설 — "70B 모델 = 100 HD movies"

"70B-parameter 모델 weight는 약 100 HD movies 분량 데이터예요. 토큰 하나 만들 때마다 그 100 HD movies가 전부 메모리에서 컴퓨트로 이동해야 합니다. 답변 1,000 단어 만들면? 100,000 HD movies 분량 데이터 이동. ... HBM→GPU는 8 TB/s. Cerebras wafer 내부는 21,000 TB/s — 2,600배 빠름. 이게 우리 fundamental advantage."

— Andrew Feldman, CEO · IPO 로드쇼 (2026.05.12)

100–150 t/s 임계점 — GPU가 못 넘는 wall

Feldman의 결정적 발언 — "GPU에는 가격이 하나가 아니다. 35 t/s에서 GB200 NVL72는 aggregate 30,000 t/s 토해낸다. 효율적. 수만 명 동시 서비스 가능. 그런데 270 t/s 단일 유저 서비스로 가면? 한 유저당 270 t/s 가능하지만 unbelievably expensive. 100~150 t/s 임계점부터 GPU는 비효율, 전력도 비효율. 이때 Cerebras는 비용도 전력도 fraction. NVDA chart 위에 우리를 그릴 수 없다 — x축 자체를 바꿔야 한다."

0 $/M tok 매우 비쌈 ⚡ 임계점 100~150 t/s GB200 비용 "unbelievably expensive" Cerebras 35 t/s 100 150 270 t/s 단일유저 속도 → GPU: aggregate 30k t/s, 효율적
※ 같은 GB200 NVL72가 35 t/s 운영하면 효율 최고고, 270 t/s 운영하면 사실상 불가능. Cerebras는 100~150 t/s 이상 영역의 거의 유일한 경제적 선택지.

OpenAI가 Cerebras를 선택한 진짜 이유 — Paul Graham · Sam Altman · Musk 일화

"Paul Graham (Y Combinator 창업자)이 트위터에 썼어요: 'I would use Google half as much if ChatGPT weren't so slow.' 즉 사람들이 ChatGPT가 느려서 Google로 떠난다는 거. Sam Altman (OpenAI CEO)이 답글: 'We're going to fix this.' Elon Musk가 끼어들었어요: 'Not everyone's that slow.' ... 그러면 OpenAI가 어떻게 fix 했나? They fixed it by doing the deal with Cerebras. $20B+ over several years."

— Andrew Feldman, CEO · IPO 로드쇼 (2026.05.12)
핵심 함의: OpenAI가 Cerebras를 선택한 이유 = ChatGPT의 속도 문제 해결. 단순한 capacity 확보가 아니라 "speed as product"가 deal의 본질. 그래서 NVDA가 아무리 capacity를 갖춰도 OpenAI는 Cerebras 필요. 100~150 t/s 임계점이 그 이유. Reasoning 시대 (query당 compute 100×) + Agentic 시대 (사람이 기다리는 시간 폭증)로 갈수록 속도 가치 더 커진다.
07

추론 시장의 양갈래 분화 — Answer vs Agentic

MARKET STRUCTURE

추론 시장은 사람이 답을 기다리는 'Answer'컴퓨터끼리 일하는 'Agentic'으로 갈린다. 여기에 'Coding'이라는 세 번째 영역이 추가되며, OpenAI Codex-Spark가 Cerebras 추론 위에서 1,000+ t/s로 구동되는 사실(S-1/A 명시)이 그 증거다. Cerebras의 토큰 속도 우위는 Answer · Coding 시장에서 곧장 UX·가격 프리미엄으로 전환되지만, Agentic 시장은 시간보다 메모리 계층 효율(KV cache · host RAM · SSD · DB · object store)이 핵심이라 NVDA의 Dynamo + GB300/Rubin · AMD MI450(432GB HBM4)이 더 유리할 수 있다. Agentic 시장이 더 빠르게 큰다는 가설이 베어 케이스의 핵심.

Answer Inference
사람이 답을 기다리는 시장
챗봇 · 검색 · 코드 자동완성 · 음성 어시스턴트. 인간 독해속도(10–20 t/s) 상회가 UX의 핵심.
사용자Human-in-the-loop
핵심 지표토큰/초 (latency)
병목메모리 대역폭
시장 크기 비례사용자 수 × 빈도
대표 워크로드Perplexity · Mistral Le Chat · Cursor
최적 칩SRAM-rich
유리한 진영: Cerebras · Groq (NVDA 산하)
OpenAI GPT-5.3-Codex-Spark가 Cerebras에서 1,000+ t/s · 128K 컨텍스트 · 기존 대비 ~15× 빠른 속도로 코딩 에이전트 페어 프로그래밍 검증
Agentic Inference
컴퓨터끼리 일하는 시장
AI 에이전트가 멀티스텝 워크플로우를 스스로 수행. 인간이 루프에 없어 latency 가치가 하락하고 메모리 계층이 핵심.
사용자Agent-to-agent
핵심 지표Throughput / KV mgmt
병목메모리 계층 효율
시장 크기 비례컴퓨트 시간 (24/7)
대표 워크로드Devin · Codex Agent · multi-step
최적 칩HBM + host RAM
유리한 진영: NVDA Dynamo + GB300 · AMD MI450
NVDA Dynamo 1.0의 KV-aware Smart Router, NIXL, KV offloading이 정확히 이 영역. GB300 NVL72는 Hopper 대비 throughput/MW 50× (SemiAnalysis InferenceX)
핵심 함의: NVDA의 프리미엄은 결국 latency 기반이다. Agentic에서 latency 가치가 하락하면 그 프리미엄도 약화된다. 반대로 Agentic 시장에서 메모리 계층 풍부한 GPU + 저렴한 DRAM 조합이 충분하다면, 중국·우주 데이터센터 등 구형 노드로도 작동 가능해진다. Cerebras의 압도적 latency 우위가 Agentic 시대에 얼마나 가치 있을지가 12–24개월 보유 의사결정의 핵심 변수. 반대편 강세 논리는 Anthropic Opus 4.6 Fast 사례 — 6× 가격에 2.5× 속도, 4월 SemiAnalysis 지출의 80%가 Fast 모드. 속도 자체가 ARR 폭발의 핵심 SKU가 되었다는 revealed preference 증거.

Stratechery 베어 thesis — "The Inference Shift" (Ben Thompson, 2026.05.11)

"All of this falls under the banner of 'inference', but I think it will be increasingly clear that there is a difference between providing an answer — what I will call 'answer inference' — and doing a task — what I will call 'agentic inference.' Cerebras' target market is 'answer inference'; in the long run, I think the architecture for 'agentic inference' will look a lot different, not just from Cerebras' approach, but from the GPU approach as well."

"The company is highlighting the usefulness of speed for coding ... but I think this is a temporary use case. Coding with LLMs requires a human in the loop. ... it's not hard to envision a future where all of this is completely handled by machines. The true power of agents will not be that they do work for humans, but rather that they do work without human involvement at all."

"The limitation in terms of training also potentially applies in terms of inference: as long as everything fits in on-chip memory Cerebras' speed is an incredible experience; the moment you need more memory, whether that be for a larger model or, more likely, a larger KV cache, then Cerebras doesn't make much sense, particularly given the price."

— Ben Thompson, Stratechery "The Inference Shift" (2026.05.11)

3 시장 Framework — AI compute의 구조적 분기

① Training (NVDA dominant) 현재 largest ★ Answer inference (Cerebras 타겟) "small but meaningful" ③ Agentic inference "the largest market by far" — Cerebras 외부
※ Stratechery 분석 기반 정성 시각화. 시장 크기 비례는 Thompson 표현 그대로 ("by far"). 향후 5년 내 agentic이 training·answer 합산을 넘을 가능성 높음.

🐻 Stratechery 베어 5점 정리

  1. Agentic inference (가장 큰 시장)에서 Cerebras 구조적으로 적합 안 함
  2. SRAM 44GB 한계 → 큰 모델·long context 효율 급락
  3. 코딩 use case는 "human in loop" 깔린 임시 — 진정한 agent 시대 시 사라짐
  4. Wafer yield = 구조적 cost 압박, 큰 모델일수록 multi-wafer pipeline 비효율
  5. 200K+ context (책 한 권 분량) 미지원 우려 — 향후 표준이 될 수 있음

🐂 그래도 살아있는 강세 논리

  1. "Answer inference는 small이지만 meaningful" — 챗봇·voice·웨어러블·코딩까지 명확한 use case 존재
  2. Voice는 token generation speed의 함수 — AI 웨어러블·음성 agent 시대가 오면 speed 가치 폭발 가능
  3. Reasoning 시대 = query당 compute 100× → 사람이 기다리는 시간 늘어남 → 속도 가치 폭증
  4. OpenAI deal 자체가 "answer inference" 검증 — 가장 큰 휴먼-페이싱 product (ChatGPT)가 Cerebras 선택
  5. 2026~2028 골든 윈도우 — OpenAI ramp + 가격 인상 + AWS GA. 2029+ agentic 본격화 시 재평가
08

OpenAI 메가딜 — 33.75GW 컴퓨트 portfolio 속 Cerebras 위치

CIRCULAR FINANCING

OpenAI는 NVDA $100B(10GW LOI), Oracle Stargate $300B(4.5GW), AMD 6GW(160M주 워런트 $0.01), Broadcom 10GW 커스텀 ASIC ('Titan'), Cerebras 750MW를 동시에 발주하는 "circular financing" 구조 + 워런트 인센티브 정렬을 구사한다. 총 33.75GW 약정. Cerebras는 그 portfolio의 저지연 추론 전용 슬롯(약 2.2%)을 차지했으며, OpenAI에 부여한 Class N 워런트 33.45M주(행사가 $0.00001)는 풀 베스팅 시 OpenAI 지분 약 10%까지 부여한다.

파트너
규모 / 약정
GW 비중 (33.75GW 기준)
인센티브
단계 / 비고
NVIDIA
10 GW
$100B 투자
LOI 단계 · 2026 H2 Vera Rubin부터 · NVDA CFO Kress (2025.12) "definitive 미체결"
Broadcom (Titan)
10 GW
$10B+
텀시트 · TSMC 3nm · 2026 H2 양산 목표 · $18B 1차 financing 난항 보고
AMD (MI450)
6 GW
tens of $B
Definitive · 160M주 워런트 $0.01 · 2026 H2 1GW 가동 · MI450 (CDNA5, TSMC 2nm)
Oracle (Stargate)
4.5 GW
$300B / 5y
발표 · Abilene TX 1.2GW 가동 · 2027 본격 시작
Cerebras
0.75 GW + 1.25 GW 옵션
$20B+ SIGNED
MRA 체결 ('25.12) · 공개 ('26.01) · 750MW까지 '28년까지 / 1.25GW 추가 옵션 시 2030년까지 총 2GW · Class N 33.45M 워런트 $0.00001 (capacity 매입 시 단계 vest) · OpenAI $1B 운전자본 대출 (6%, '32.12 만기, 현금 또는 services 상환) · 3 tranche 250MW/yr ('26·'27·'28)
Microsoft Azure
기존
$13B+ 다년
2025년 독점 우선권 종료 · 다중 클라우드 전환

Andrew Feldman 로드쇼 직접 발언 (2026.05.12)

"OpenAI has announced hardware deals with many companies, but today the only two companies who actually run their models and run them in production are Nvidia and Cerebras. Our deal with OpenAI is a committed, take-or-pay $750M contract. It is well north of $20B and began with a $1B prepay. The structure is three tranches: in 2026 there will be 250MW, in 2027 there will be 250MW, and in 2028 there will be 250MW. ... In addition, OpenAI has an option for yet more capacity — 1.25GW. This is truly an enormous deal, one of the largest deals in Silicon Valley history."

— Andrew Feldman, CEO · IPO 로드쇼 (2026.05.12)

3-Tranche 구조 분해 (Roadshow 명시)

2026 · Tranche 1
250 MW
Cerebras Cloud 3년 리스로 전달. OpenAI가 4년·5년차 연장 옵션. Cerebras 자체 데이터센터 build/운영 = 자본부담 최대, 매출 인식 길게 분산.
~$0.45B 매출 (자체 추정)
2027 · Tranche 2
250 MW
OpenAI가 직접 구매 vs Cerebras Cloud 연장 선택 가능. 직접 구매 시 일회성 hardware sale로 매출 폭증.
~$2.0B 매출 (자체 추정)
2028 · Tranche 3
250 MW
동일 옵션. 마지막 base tranche. 750MW 약정 완료.
~$2.8B 매출 (자체 추정)
+ OPTION (행사 시)
+1.25 GW
행사 시 총 약정 2 GW · deal 사이즈 $20B+ → $40B+로 더블 가능. 2030년까지 점진.
~$2–4B 추가 upside

매출 Trajectory — OpenAI 본격 인식 시 2027부터 폭증

$0 $1B $2B $3B $4B $5B+ $290M 2024 $510M 2025 $1.8B 2026E $4.0B 2027E $5.5B 2028E
UAE (G42 + MBZUAI) OpenAI AWS + 기타
※ 2027 매출 $4B = 2024 매출 14× — OpenAI deal 본격 인식. 매출 구성 진화: 2024 UAE 85% → 2027E UAE 35% + OpenAI 50% + AWS 10% + 기타 5%. "single country dependency"에서 "distributed customer base"로 transition.

Cerebras 슬롯의 전략적 가치

750MW는 절대 규모로는 NVDA 10GW의 7.5%에 불과하나, (i) 비-GPU 공급자 중 OpenAI에 채택된 유일 사례이고 (ii) 추론·reasoning 워크로드 전용(ChatGPT 응답 속도가 직접 영향)이라는 위치를 차지한다. OpenAI가 GPT-5.3-Codex-Spark를 Cerebras 하드웨어에서만 독점 구동(1,000+ t/s, 128K 컨텍스트)한 사실은 "에이전트 인프라에는 SRAM 대역폭이 적합"이라는 기술적 보증으로 작용. Feldman의 발언 — "the only two companies who actually run their models in production are Nvidia and Cerebras" — 가 그 압축적 표현.

"All Cloud" 가정의 Hidden Upside

Feldman 명시 — 회사·sell-side 모델 모두 "가장 보수적 가정 (전부 클라우드로 인식)"으로 짜져있음.

Cloud 모델: 자체 데이터센터 → multi-year subscription, 매출 길게 분산, capex 최대
Hardware 직매 모델: OpenAI가 hardware 직접 구매 → 일회성 매출 폭증, cloud 운영 cost 없음 → GM 더 높음

2027·2028 OpenAI가 구매 옵션 행사 가능성 높음. 실제 시나리오는 회사 모델보다 매출 인식 빨라지고 GM도 상향 — 이게 sell-side가 capture하지 못한 "hidden upside".
Anthropic 가격 인상 lever (Roadshow): Feldman 발언 — "$500M 매출 2025, GM ~50%. 지난 4개월간 30% 가격 인상했고 아무도 안 떠났음. Anthropic faster service = 2× faster · 6× price. 우리는 그 Anthropic 대비 15× faster — 가격 ceiling 미테스트." Long-term GM target low 60s, backlog는 이미 low-60s 마진. 2026 GM dip은 product economics 아닌 G42 Rentback(capacity 부족) 일시 효과.

총 33.75GW 컴퓨트 약정 (GW 비중)

NVDA 10GW
Broadcom 10GW
AMD 6GW
Oracle 4.5GW
Cerebras 0.75
Azure ~2.5
※ Cerebras는 전체 약정의 2.2%지만, 유일하게 definitive MRA 체결 완료 상태(NVDA·Broadcom·Oracle은 LOI/텀시트 단계).
09

락업·오버행 — IPO의 5.7배 매물대

SUPPLY OVERHANG

Cerebras 락업은 전통적 180일이 아니다. (i) 180일 또는 (ii) Q3 26 결산 발표 +2영업일 중 빠른 시점에서 풀리며, 더 결정적으로 비임원 직원은 Day 1에 보유 주식의 7.5%, Price Trigger(+33%) 달성 시 추가 7.5%가 즉시 해제된다. 중요 — 이 7.5%는 "Class B 전체"가 아니라 "비임원 직원이 보유한 부분"의 7.5%다. S-1/A 본문에 따르면 임원·이사·5%+ stockholders 합산이 38.5% of outstanding (의결권 50.9%)이며, Class B 185.23M주 중 5%+ VC만 합치면 ~79.5M주(42.9%)를 차지한다. 직원 옵션 풀(stock options 28.36M outstanding @ 가중평균 행사가 $4.97 + RSU 11.07M)은 IPO 후 락업이 풀려야 시장 출회 가능. 락업 만료 시점(2026.11.10 추정)에 최대 ~171M주 잠재 매물이 진짜 cliff.

CBRS 주주 구성 — S-1/A May 11 수정안 기준 (Crunchbase 5/13 인용)

Class B 5%+ Holders (VC)
Fidelity (Series G lead)11.3% · ~20.93M
Benchmark (Vishria, Director)9.5% · ~17.60M
Foundation Capital (Vassallo, Director)8.3% · ~15.37M
Eclipse Ventures (Series B–E)7.3% · ~13.52M
Alpha Wave Global (Series F)6.5% · ~12.04M
5%+ VC 합계 (Class B 기준)42.9% · ~79.46M
※ Benchmark, Foundation은 이사회 멤버 affiliate로 분류. 5%+ 그룹에 모두 포함됨.
기타 주요 투자자 (5%- · S-1 명시)
Series G/H 후기 투자자: Tiger Global (Series H lead, 2026.2), Atreides Management (Series G co-lead), AMD, 1789 Capital, Valor Equity Partners

중기 투자자 (Series D~F): Coatue Management (Series D), Altimeter Capital (Series D), VY Capital, Moore Strategic Ventures

UAE/Sovereign: Abu Dhabi Growth Fund (Series F-2 별도), G42 (Class N 비의결권으로 재구조화)

전략 투자자: Open Field Capital, TSMC (소수지분, Feldman 발언)

D+1/D+2 직원 매물 추정 (S-1/A 락업 조항 기반)

총 발행 (Class A + B)
215.23M
Class A (공모, 1 vote)
30.0M
Class B (20 votes)
185.23M
└ 5%+ VC (Fidelity·Benchmark·Foundation·Eclipse·AlphaWave)
~79.5M (Class B 42.9%)
└ 5%- 외부 VC (Tiger·Altimeter·Coatue·AMD 등)
~50–70M (추정)
└ 임원·이사 본인 affiliates
~3–5M (38.5%−36.9%)
비임원 직원 (이미 베스팅·Class B 보유)
~25–30M (추정)
D+1 직원 7.5% (Day 1)
~2.0M주
D+2 (+33% Trigger = $246) 추가 7.5%
~2.0M주
+180일 또는 Q3+2 락업 만료 cliff
~171M주
※ S-1/A 락업 조항: "비임원 직원이 보유한 Class B 주식의 7.5%"가 D+1, "Price Trigger 달성 시 추가 7.5%"가 D+2. Class B 전체가 아닌 "직원 보유분"의 비율. D+1/D+2 매물대는 약 4M주(전체의 1.9%)로 제한적이며, 결정적 cliff는 락업 만료 시 ~171M주.

희석성 증권 (Outstanding Dilutive Securities)

미베스팅 stock options (Class B 전환)28,361,707주
└ 가중평균 행사가$4.97
└ 공모가 $185 대비 차익 배수+37×
미베스팅 RSU (서비스+유동성)11,069,196주
PRSU (창업자 시장조건)9,000,000주
OpenAI Class N 워런트33,445,026주 @ $0.00001
AWS Class N 워런트2,696,678주 @ $100
2026 Plan / ESPP 예약45.9M주
※ Options 가중평균 행사가 $4.97 → 공모가 $185 대비 +37× 차익. 임원·직원의 락업 후 행사·매도 압력 강력.

Triple-Class 주식 구조 & 거버넌스

Class A (공모, 1 vote)30.0M주
Class B (인사이더, 20 votes)185.23M주
Class N (워런트, 0 vote)36.1M주 (행사 시)
상장 후 인사이더 의결권99.2%
임원·이사·5%+ 의결권~50.9%
└ 위 그룹의 주식 보유38.5% (~82.86M)
창업자 Sunset 조건Class B < 5% 유지
직원 수 (2025.12.31)708명

락업 해제 타임라인 — Comparable IPO 패턴

DAY 0 · 2026.05.14
상장 · Class A 30M주 거래 개시
공모 물량 30M주만 거래. Class B 185.23M주 / Class N 36.1M (OpenAI 33.4M, AWS 2.7M warrant) 대기.
DAY 1 · 2026.05.15
비임원 직원 보유분의 7.5% 즉시 해제 (~2M주)
전체 발행 215M의 0.9%로 영향 제한적. 다만 옵션 행사가 $4.97 → $185 차익 +37×로 매도 인센티브 강력.
Price Trigger 발동 시 (+33% = $246) · 2거래일 후
비임원 추가 7.5% 해제 (~2M주)
시초 +33% 도달 시 발동. 인수단이 $115→$185로 +60% 인상한 결과 트리거 임계가 $246로 상승해 발동 가능성 자체가 낮아진 효과.
DAY ~95 · 2026.08.19 추정
Q2 26 실적 발표 — 첫 공개 실적
$24.6B RPO 인식 진도 첫 점검. UAE 86% 집중도 변화 첫 확인. 락업 만료 전 가장 큰 변동성 catalyst.
DAY ~180 · 2026.11.10 추정
180일 또는 Q3+2 락업 만료 (메인 cliff)
최대 ~171M주 잠재 매물 — IPO 공모 30M의 5.7×. VC (Fidelity·Benchmark·Foundation·Eclipse·Alpha Wave) 차익 실현 + 임원 옵션 행사 + G42 Class N 일부 매도. Comparable IPO 패턴상 D+180 시점 -20~30% retracement 통상.
2026.11 ~ 2027.Q1 · ENTRY WINDOW
분할 매수 검토 윈도우 (Comparable: ARM/Astera/Klaviyo)
$170–$200대 entry 가능 영역. Q4 실적 + AWS Bedrock GA + OpenAI tranche 인식이 매물 압력을 흡수할 수 있는지가 관건.

Comparable IPO — 락업 cliff 패턴 (D+180 retracement)

0% +50% +100% +150% +200% ⚠ 락업 cliff D+180 ⚠ D1 +1w +1M +3M +6M +9M +12M ARM +45% Astera +90% Klaviyo +5% CBRS 예상
※ ARM·Astera Labs·Klaviyo 모두 D+180 시점에서 락업 cliff retracement 발생. CBRS도 동일 패턴 예상 — Day 1 +50% 안착 후 11월 cliff -20~30% 조정, 그 이후 OpenAI ramp 가시화 시 회복.

5단계 액션 Timeline

단계 일자 액션
1 2026.05.14 Day 1 추격 비추  가격만 기록. 1~2% speculation 비중은 허용 가능
2 2026.08 Q2 어닝 OpenAI 매출 시작·UAE 비중 변화 확인. ramp 모니터링
3 2026.11.10 cliff Entry Trigger ★  -20~30% 조정 시 $170~200대 분할 매수
4 2027 Q1 (+1y) OpenAI 본격 ramp 가시화 시 add-on. 매출 $4B 가정 시 P/S 12×로 정상화
5 2027 H2 $300+ 도달 시 일부 익절, $200 미만 retracement 시 추가 매수. 2029+ Agentic shift 변수 재평가
오버행 뇌관 재정의: 시장이 "Day 1부터 1.71억 주 매물"로 잘못 표현하는 경우가 있으나, S-1 락업 조항을 정독하면 D+1/D+2 매물은 ~4M주(전체의 1.9%), 진짜 cliff는 2026.11 락업 만료 시점이다. Comparable IPO 패턴(ARM·Astera·Klaviyo)에서 D+180 -20~30% retracement가 통상이며, Day 1 추격 매수보다 cliff 후 분할 매수가 통계적으로 더 안전.
10

경쟁환경 — NVIDIA의 반격과 Groq 흡수

COMPETITIVE LANDSCAPE

2025.12.24 NVIDIA가 Groq 자산·IP·핵심 인력을 $20B에 흡수(NVDA 사상 최대 거래, Mellanox $7B의 ~3배). 비독점 라이센스 + acquihire 외형으로 규제 회피했고, 2026 GTC에서 Groq 3 LPX를 Vera Rubin 시스템에 통합 발표. Cerebras의 가장 큰 장점이었던 'SRAM 기반 초저지연 토큰 생성'마저 NVDA 생태계 내 컴포넌트로 흡수된 셈이다. 게다가 NVDA Dynamo 1.0(disaggregated inference, KV-aware Smart Router, NIXL)은 Cerebras가 답을 가지지 못한 Agentic inference 영역을 정조준한다.

High Threat
NVIDIA Vera Rubin
Rubin GPU + Vera CPU · 2026 H2
HBMHBM4
NVLink 63.6 TB/s
CPU 코어 (Vera)88 Olympus
Form factorNVL72 Rack
대 Hopper 효율50× / MW
MGX 아키텍처 drop-in replacement, Dynamo 1.0과 결합 시 Agentic 영역 정조준.
High Threat
NVIDIA-Groq 통합
Groq 3 LPX (acquihire) · 2026 H2
인수가$20B (현금)
방식non-excl. license
발표일2025.12.24
통합 시점Vera Rubin 내장
기존 우위SRAM 초저지연
Cerebras 핵심 차별점인 SRAM 기반 추론을 NVDA 생태계가 흡수 완료. 양동작전 위기.
Medium Threat
AMD MI450
CDNA5 · TSMC 2nm · 2026 H2
HBM432 GB HBM4
메모리 BW20 TB/s
OpenAI 약정6 GW
Meta 약정6 GW
Helios rack-scale
432GB HBM4로 큰 KV cache·큰 모델 적재 Agentic에 강점. Cerebras 약점 영역 공략.
Medium Threat
Broadcom 'Titan'
OpenAI 커스텀 ASIC · TSMC 3nm
규모10 GW / $10B+
양산 목표2026 H2
단계텀시트
네트워크Ethernet 기반
설계OpenAI 자체
OpenAI의 종속 탈피 카드. 2027~ 본격 가동되면 Cerebras MRA 갱신 협상력 직접 위협.
Low Threat
SambaNova SN40L
RDU + HBM + DDR
메모리 계층3-tier
405B 추론16칩
고객정부·국방
속도 vs Cerebras~75%
매출 규모< CBRS 1/5
작은 풋프린트 강점. Cerebras 대비 절대 속도 열세지만 메모리 계층 우위.
Low Threat
Etched (Sohu)
Transformer-only ASIC
밸류에이션$5B
누적 펀딩~$1B
투자자Stripes, Thiel, Ribbit
양산미공시
매출실 매출 미발생
Pre-revenue. Transformer 전용 극단 최적화 컨셉. 실제 위협은 2027+.
NVDA Dynamo 1.0의 의미: Disaggregated Prefill/Decode + KV-aware Smart Router + NIXL 라이브러리 + KV cache offloading. NVIDIA가 inference의 "memory wall"을 메모리 계층 분산화로 우회하는 답을 내놓은 것. GB300 NVL72 + Dynamo = throughput/MW 50× vs Hopper (SemiAnalysis InferenceX). Cerebras의 절대 토큰/초 우위는 유지되겠지만, NVDA가 동일 워크로드에서 cost/token을 따라잡으면 시장의 multiplier는 압축된다.

Andrew Feldman의 Groq 직접 비교 (Roadshow)

"Groq did roughly $50M in 2025 at negative margins; we did roughly $500M at around 40% gross margin. We are 12× faster than Groq. The LPU is also an SRAM-based solution, and we agree with some of their architectural decisions, but it has the weakness of being 800 square millimeters. To store the weights of even a mid-sized model, they need thousands of chips. For a big model, we might need four, eight, or twelve chips and have to leave the chip boundary four, eight, or twelve times. They need to do that thousands of times. ... This limitation is not resolved through their acquisition by Nvidia. ... that is a fundamental ceiling on how fast that solution will ever go."

— Andrew Feldman on Groq · IPO 로드쇼 (2026.05.12)
지표 Groq Cerebras
2025 매출~$50M~$500M (10×)
Gross Marginnegative~40%
속도baseline12× faster (Feldman)
단일 die 크기800 mm² (small)~46,000 mm² (wafer)
큰 모델 시 chips 필요량thousands4~12개
Off-chip 통신 횟수thousands ×4~12 ×
현재 상태NVDA $20B 흡수 (2025.12)IPO 2026.05.14
Feldman의 핵심 주장: Groq도 SRAM 철학은 같으나 chip이 800mm²로 너무 작아 큰 모델 처리 시 수천 chip을 연결해야 하고, 그때마다 chip 경계를 넘는 off-chip 통신 발생 → 전체 속도 한계. NVDA 인수해도 이 구조적 한계는 해결되지 않는다 ("fundamental ceiling on how fast that solution will ever go").

균형 해석: Feldman 발언이 100% 객관적은 아님 (IPO 직전 경쟁사 비교). 그러나 매출 $50M vs $500M, GM negative vs 40%는 객관적 숫자. 단기 (1~2년) Groq가 Cerebras를 따라잡기는 어려운 게 사실. 다만 NVDA 자본력 + CUDA ecosystem이 3~5년 내 Groq를 키울 가능성은 잔존.
10·B

CS-3 시스템 BOM · 수율 · 냉각 — 본격 양산의 현실

SEMIANALYSIS DEEP DIVE

SemiAnalysis(2026.05.13, "Cerebras: Faster Tokens Please")는 WSE-3 / CS-3 시스템을 BOM 단위까지 분해했다. 핵심 시사점: (i) 마케팅에 인용되는 125 PFLOPS는 8:1 sparsity 가정의 sparse 수치이며 실제 dense FP16은 15.625 PFLOPS로 GB300(15 PFLOPS, FP4)과 비교 가능한 수준, (ii) rack당 BOM ~$450k (2025 Q4 메모리 가격 인상 후, 이전 $350k)로 silicon은 TSMC N5 wafer ~$20k에 불과, Vicor VPD + 커스텀 냉각이 더 큰 비중, (iii) 970,000 코어 중 900,000만 활성화하는 yield harvesting + 배치마다 다른 mask set로 ~100% wafer 활용률 달성, (iv) NVL72 표준 1.5 LPM/kW의 3× 수준 (4 LPM/kW) 냉각 인프라 요구.

Feldman's Formula — Sparse vs DensePFLOPS

Cerebras 마케팅·S-1은 WSE-3를 125 PFLOPS FP16으로 표기하나, 이는 8:1 unstructured sparsity 가정의 sparse 수치다. 실제 개발자가 사용 가능한 dense FP16 = 125 / 8 = 15.625 PFLOPS.
FP16/FP4 EQUIVALENT COMPARISON
WSE-3 dense FP1615.625 PF
GB300 native FP415.000 PF
B300 native FP413.500 PF
Rubin native FP435.000 PF
※ FP4와 FP16은 직접 비교 부적절하지만, production inference가 대부분 FP4로 이동하는 점 감안 시 실질적 best comparison. "Jensen Math 2:1 sparsity"보다 더 큰 8:1 sparsity factor 사용 — SemiAnalysis 명명: "Feldman Formula".

CS-3 Rack BOM 분해$450K / RACK

2025 Q4 메모리 가격 인상 전 ~$350k → 인상 후 ~$450k. Silicon은 BOM의 일부일 뿐, 커스텀 power delivery + cooling이 결정적.
TSMC N5 wafer~$20k
└ 추가 mask set (배치별)+상당
Vicor 커스텀 VPD (25kW 공급)~TSMC와 유사
12× 3.3kW PSU표준
커스텀 cold plate + manifold고비용
KVSS node (dual AMD CPU + 6TB DDR5)메모리價 ↑
12× 100GbE Xilinx FPGA (NIC)고정
조립·패키징Cerebras 자체
※ AMD CPU + 6TB DDR5 RDIMM이 KV Cache offload용으로 분리 노드. CPU노드 비용이 메모리 가격 swing에 직접 노출 → GM 압박 요인.

Yield Harvesting — 100% Wafer 활용YIELD

12×7 = 84 stepping × 11,500 cores ≈ 970,000 cores 제작, 900,000만 활성화(72,000 redundant cores). 결함 코어를 우회 라우팅. 더 중요한 점은 배치마다 다른 mask set(상위 메탈 레이어 커스텀)으로 결함 위치에 맞춰 배선을 다시 깔아 100% 가까운 wafer 활용률 달성.
Stepping/die per wafer84 (12 × 7)
총 코어 제조~970,000
활성 코어900,000
Redundancy~7.2% (~70K)
코어 크기 (작음)yield 우호
배치별 mask+ mask cost
실효 wafer yield~100%
※ Reticle-sized 칩의 sort yield 통상 50% 이하인 것 감안 시 큰 성과. 단, 배치별 mask 추가 비용이 단가에 누적.

냉각 인프라 부담 — NVL72의 3×COOLING

25 kW를 21.5×21.5 cm 단일 wafer에서 제거해야 함 — 표면 평균 ~50 W/cm²(hotspot 미반영). Air cooling은 wick 모세관 한계로 불가능, 전용 cold plate + 4-layer engine block + LiquidStack(Trane이 2026.3 인수) 협력 L2L CDU가 필수.
CS-3 wafer power25 kW
CS-3 flow rate100 LPM @ 25kW
= 4 LPM/kWvs NVL72 1.5 LPM/kW
NVL72 inlet temp 가능45°C (free cooling)
CS-3 inlet temp21°C (chiller heavy)
OKC chiller plant6,000-ton @ 5°C
CS-4 목표 flow1.5–1.7 LPM/kW
※ Chiller heavy 인프라는 OPEX 부담. CS-4가 NVL72 표준으로 수렴해야 hyperscaler colocation 확장 용이.

SemiAnalysis 결론 — 강점 / 한계

강점: Cross-die wiring/routing 등 진짜 proprietary 하드웨어 기술. 다른 액셀러레이터 스타트업이 가져오지 못한 혁신. OAI 딜로 인해 healthy + rapidly growing business path 진입. 2028년까지 inception 이후 출하 합계의 order of magnitude 이상 출하 필요 — TSMC wafer loadings가 분기마다 step-up(SemiAnalysis Accelerator Model 확인).

한계: off-wafer 네트워킹 단 150 GB/s — GPU/XPU 대비 작은 수치. 네트워킹이 약하면 wafer를 더 묶기 어려워 메모리 capacity의 추가 확장이 어렵고, agentic 워크로드 큰 KV cache·큰 모델 처리에 약점. "fatal하지 않지만 handicap" (SemiAnalysis 표현). 큰 모델은 weight streaming으로 보완하지만 메모리 효율 trade-off.

SRAM Machines 분류 (NVDA-Groq 직접 비교)

WSE-3 SRAM44 GB
Groq LPU SRAM0.5 GB / LPU
B300 HBM3e (단일)288 GB (8-stack)
└ WSE-3 대비 capacity6.5×
WSE-3 off-wafer BW150 GB/s
GB300 NVLink scale-up~7.2 TB/s
Cerebras 자체 마케팅on-wafer 21 PB/s 표기
※ Cerebras 마케팅은 on-wafer dataflow (data가 wafer에 잔류)와 GPU off-package BW를 직접 비교. 같은 metric은 아님.
"Faster Tokens Please" 핵심 명제: 5년 전 SemiAnalysis 자체도 SRAM 머신에 회의적이었으나, NVDA의 $20B Groq licensiquihire(2025.12) + Claude Code Inflection Point가 명제를 뒤집었다. Frontier 랩들이 fast/priority/standard/batch tier로 같은 모델을 가격 차별화하는 사실 자체가 "사람들은 fast token에 더 많은 돈을 낸다"는 시장 검증이며, 이것이 OpenAI가 Cerebras에 $20B+ 약정한 근본 이유.
11

밸류체인 — Reticle을 무시한 제조 생태계

VALUE CHAIN

웨이퍼 한 장을 통째로 칩으로 쓰는 아키텍처는 기존 반도체 제조·패키징·전력·냉각의 모든 가정을 무너뜨린다. Cerebras는 TSMC 5nm 단일 파운드리 + Amkor/TSMC 애리조나 advanced packaging + Vicor 3D 수직 전력 + Nautilus EcoCore 무수(無水) 액침 냉각이라는 네 갈래 종속 구조를 가진다. 어느 한 곳이 막히면 30,000+대 CS-3 생산 계획이 즉시 위태로워진다. 역설적으로 이 종속 구조가 가장 큰 alpha이기도 하다 — NVDA·AMD가 묶여있는 3대 choke point (HBM · CoWoS · TSMC 3nm)를 Cerebras는 셋 다 회피한다.

Andrew Feldman 로드쇼 발언 — 공급망 alpha

"산업 tightest 3 spots: memory, HBM, and CoWoS — 우린 셋 다 안 씁니다. 세 번째 tight한 게 TSMC 3nm capacity인데, 우린 3nm 안 쓰고 5nm 씁니다. TSMC가 Cerebras 투자자입니다. ... 우린 hardware 역사상 $1B, $2B, $5B, $10B 매출 도달 가장 빠른 회사가 될 거예요. 제조 capacity 10×/년 가능 (수년간 upper bound)."

— Andrew Feldman, CEO · IPO 로드쇼 (2026.05.12)

NVDA/AMD 3대 choke point vs Cerebras 회피

병목 NVDA · AMD Cerebras
HBM (SK하이닉스·삼성·Micron) 절대 의존 · 2026 capacity 매우 tight 미사용 (44GB SRAM only)
CoWoS (TSMC advanced packaging) 절대 의존 · 2026~27 부족 미사용 (wafer-scale로 packaging 불필요)
TSMC 3nm 대거 사용 (Blackwell · MI400) 미사용 (5nm 사용)
TSMC 5nm 구세대 (점진 이동) 핵심 노드 · capacity 여유
TSMC 고객 순위 NVDA·AAPL·AMD top 5 2024 top 150 → 2025 top 15
TSMC 지분 관계 일반 고객 TSMC가 Cerebras 투자자
TSMC corporate strategy 함의: Feldman은 TSMC가 Cerebras를 살리는 이유를 명시 — "Apple이 PA Semi 인수로, AWS가 Annapurna 인수로 칩 사업 시작. TSMC는 capacity를 top 5 고객에만 몰아주지 않고 ecosystem 전체에 분배하는 게 corporate strategy. 우리가 그 수혜자." 즉 NVDA의 HBM·CoWoS 공급 부족이 Cerebras에는 무관한 alpha이며, "10× manufacturing/yr" 발언이 구조적으로 가능한 이유다.
STAGE 01 · FOUNDRY
TSMC
Hsinchu, Taiwan · Phoenix AZ Fab 21
공정: N5 (5nm) 단독
웨이퍼당 다이: 1장 = 1칩
트랜지스터: 4조 개
계약: 장기 allocation 미체결
⚠ 대만 지정학 · TSMC capacity allocation 우선순위 · 단일 공급자 종속
STAGE 02 · PACKAGING
Amkor + TSMC
Peoria, Arizona · $2B 합작 시설
기술: CoWoS · InFO
위치: TSMC AZ Fab 21 인접
투자: Amkor $2B
목적: 제품화 사이클 단축
⚠ HBM·NVDA 동시 수요로 CoWoS capacity 만성 부족
STAGE 03 · POWER DELIVERY
Vicor
Andover, MA · NYSE:VICR
방식: 3D 수직 전력 분배
웨이퍼 상단에서 직접 전류 공급
암페어: 수만 A · 전압강하 없음
목적: 스파이크 방지 · 효율 극대화
⚠ Vicor 부품 의존 · 단일 설계 표준화 부재
STAGE 04 · COOLING
Nautilus EcoCore
Stockton, CA · San Joaquin River
방식: 무수(無水) 액침
규모: 2.5 MW 인프라
랙당: 30–55 kW 극초밀도
구축: 60일 단기 deploy
⚠ 수자원·환경 규제 변동 · 위치 종속

데이터센터 발자국 — 6+ 자체 시설 + 2 유럽

US · CA
Santa Clara HQ
본사 R&D, Condor Galaxy lab
US · CA
Stockton
Nautilus 2.5MW 액침
US · TX
Dallas
Tier-1 inference cloud
US · OK
Oklahoma City
Condor Galaxy 1 host
US · MN
Minneapolis
2026 신규 deploy
CA · QC
Montreal
캐나다 거점
EU · FR
France site
G42 sovereign AI
EU · UK
UK site
G42 sovereign AI
※ S-1은 G42 sovereign AI 시설(프랑스·영국)과 미국 6곳을 확인. 750MW 약정 이행을 위해 추가 신규 부지·hyperscaler colocation 필요.
12

경영진 — SeaMicro DNA

LEADERSHIP

창업자 5인 모두 SeaMicro 출신. 2007년 microserver fabric 컨셉으로 창업해 2012년 AMD에 $334M에 매각한 검증된 팀. "여러 칩을 PCB에서 연결할 때 발생하는 전력·지연 문제를 실리콘 위에 나노 단위 배선으로 직접 해결한다"는 Wafer-Scale Engine의 발상은 SeaMicro 시절 그들이 마스터한 네트워크 패브릭 설계의 자연스러운 확장이다. CFO Bob Komin은 2024.9 합류했고 IPO 3회 경험을 갖지만 반도체 경험은 제한적.

📖 첫 IPO 실패 → 1.5년 Reset → 더 강한 복귀

2024.09 첫 시도: CFIUS가 G42 투자 관련 review 개시. 매출의 87%가 UAE 기반 G42였고, G42는 중국 기업들과 비즈니스 관계 — 미국이 "Cerebras 기술이 중국으로 흘러가는 거 아냐?" 우려. 2025.10 withdrawal 공식화.

2025년 1년간 reset 작업:G42 지분을 non-voting Class N으로 재구조화 — corporate governance에서 G42 분리 → ② OpenAI $20B+ MRA 체결 (2025.12) — 매출 source 다각화 + game-changer → ③ AWS binding term sheet (2026.03) — 첫 hyperscaler validation → ④ CFIUS 클리어 (2025년 말 통과).

1.5년의 차이: 매출 $290M → $510M (+76%) · UAE 단독 87% → UAE 86% + OpenAI 5% + 기타 다각화 시작 · 2024 IPO 가정 시 FDV ~$15B 추정 → 2026 실현 $56.4B (3.8×). 실패가 오히려 더 강한 IPO를 만든 사례.
SeaMicro
CEO · Co-Founder
Andrew Feldman
SeaMicro CEO → AMD VP · Stanford GSB MBA · 시리얼 창업가. Stanford "Cerebras: A Tale of Dreams and Risks" 케이스 주인공.
SeaMicro
CTO · Co-Founder
Sean Lie
전 AMD Fellow · SeaMicro CTO · WSE-1/2/3 수석 아키텍트. SRAM 기반 dataflow 아키텍처 설계 책임.
SeaMicro
Chief Hardware Architect · Co-Founder
Gary Lauterbach
전 Sun Microsystems UltraSPARC III/IV chief architect · Microsystems VLSI 전설. wafer-scale 물리 설계.
SeaMicro
VP · Co-Founder
Michael James
SeaMicro software stack 책임. Cerebras SDK · CSL(Cerebras Software Language) 개발 리드.
SeaMicro
VP Engineering · Co-Founder
Jean-Philippe Fricker
SeaMicro 시스템 엔지니어링 리드 출신. CS-3 시스템 통합 책임.
COO
Dhiraj Mallick
전 Intel CTO (Networking) · Mellanox · Marvell. 운영·공급망 책임. 비-SeaMicro 핵심 영입.
CFO · 2024.09 합류
Bob Komin
IPO 3회 경험 (Smule, Trulia, Tableau). 반도체 경험은 제한적. Material weakness 2건 공시.
VP · GM Inference Cloud
Andy Hock
전 NASA JPL · Cloud GM. AWS Bedrock 파트너십 책임.
VP Sales · Customers
Julie Choi (외부 인용)
엔터프라이즈 매출 다각화 책임. UAE→미국 본토 전환 핵심 KPI 보유.
거버넌스 리스크: S-1/A는 매출 인식 시점 및 재고 평가 관련 두 가지 material weakness를 공시했다. SOX 404(b) 평가는 IPO 5년 후까지 면제(EGC). CFO 합류가 2024.9로 IPO 임박 시점이며, 차등의결권 구조로 창업자 5인이 99.2% 의결권을 행사하므로 일반주주 거버넌스 영향력은 사실상 무력화.
13

밸류에이션 시나리오

VALUATION SCENARIOS

최종 공모가 $185 기준 상장 시총 $39.8B / FDV $56.4B. 2025 매출 기준 trailing P/S — 시총 기준 78× / FDV 기준 110×. NVDA(~25×) · AVGO(~20×) · AMD(~10×) 대비 3–11배 프리미엄. 비교 IPO인 CoreWeave(2025.3 IPO @ $40 → 1년 후 $89)와 Astera Labs(2024.3 IPO @ $36 → 첫날 +72%, 현재 ~$120, P/S ~50×)가 reference. 시초가 시나리오와 12개월 전망을 분리해서 본다.

시나리오 가격 시초 수익률 시총 (Listed / FDV) P/S (2025, listed) 2027E P/S
공모가 (FINAL) $185.00 $39.8B / $56.4B 78× / 110× ~26× / 37×
시초 평가절하 $170–180 -3% ~ -8% ~$37B 73× ~24×
시초 +20% 안착 $222 +20% ~$48B / $67B 94× ~31×
시초 +33% (Trigger 임계) $246 +33% ~$53B / $74B 104× ~35×
시초 +50% $278 +50% ~$60B / $85B 117× ~39×
시초 +70% (Astera-급) $315 +70% ~$68B / $96B 133× ~44×
시초 +100% (drealize melt-up) $370 +100% ~$80B / $113B 156× ~52×
12M Target — Bear $110–130 -30% ~ -40% ~$28B 55× ~18×
12M Target — Base $185–240 0 ~ +30% $40–52B ~85× ~28×
12M Target — Bull $280–320 +50–73% ~$60–70B ~125× ~42×

피어 비교 (Trailing P/S)

CBRS @ $185 (listed)78×
CBRS @ $185 (FDV)110×
CBRS @ Bull $320~135×
NVDA (FY26)~25×
AVGO~20×
AMD~10×
Astera Labs (ALAB)~50×
CoreWeave (CRWV)~5×

참고 IPO 사례

CoreWeave IPO (2025.3)$40 (하향)
CRWV 1년 후$89 (+123%)
Astera Labs (2024.3)$36 (상단)
ALAB 첫날 종가+72%
Reddit (2024.3)+48%
Arm (2023.9)+25%
Hiive (5/11) vs $185$187.53 (+1.4%)

정상화 가정 (2027E)

OpenAI MRA tranche 인식 시작 + AWS Bedrock GA + UAE 비중 50% 이하 가정 시 2027E 매출 $1.5B (RPO $24.6B의 15% 인식). 정상 forward P/S 25–30× 적용 시 fair value 시총 $38–45B (listed) / $53–63B (FDV). 공모가 $185 → 시총 $39.8B는 fair value의 하단 부근이며, 시초 30–50% 프리미엄 시 fair value 상단 또는 초과.

Day 1 (2026.05.14) 종가 시나리오 — 확률 가중 분포

24× 초과청약 + 가격 2주 만에 $115 → $185 (+60%) 인상 = Day 1 강한 premium 확정적. ARM(+25%), Astera Labs(+72%), Reddit(+48%), CoreWeave(-10%) 패턴 종합 시 시초 B 시나리오 ($240, +30%)가 modal — 확률 가중 기대값 $245.

0% 10% 20% 30% 40% 기대값 ≈ $245 E · $170 5% D · $190 10% C · $220 25% B · $240 40% Modal ★ A · $300 20% Broken Weak Normal Strong (Base) Squeeze
※ 시나리오 가정 (공모가 $185 기준): A Squeeze $300 (+62%, 20%), B Base $240 (+30%, 40%), C Normal $220 (+19%, 25%), D Weak $190 (+3%, 10%), E Broken $170 (-8%, 5%). 기대값 = $300×0.20 + $240×0.40 + $220×0.25 + $190×0.10 + $170×0.05 = $245.
Day 1 추격 매수 비추 — 통계적 근거: ARM·Astera Labs·Klaviyo 같은 hot IPO 모두 동일 패턴 (D+180 -20~30% retracement). Day 1 $240에 산다고 가정 → 11월 락업 풀려서 -25% → $180. 6개월 보유 -25%면 심리적으로 못 버틸 가능성 큼. ARM이 +45% → -25% → +60% 회복했지만 그 6개월 동안 손실 견디기 어려움. 락업 cliff 후 entry ($170–$200대)가 통계적으로 더 안전.
14

리스크 매트릭스

RISK ASSESSMENT

9가지 핵심 리스크를 발생 확률(probability) × 잠재 영향(impact) 2축에서 평가했다. 가장 시급한 것은 (1) 락업 만료 매물 압력 (2) UAE 매출 집중 (3) NVDA Dynamo + Groq 흡수로 인한 latency 프리미엄 압축이며, 나머지는 모니터링 대상.

High · 즉시
① 락업 매물 오버행
Q3 26 실적 +2영업일 또는 180일 빠른 시점. Class B 최대 1.71억 주 매물 — IPO 5.7배.
P매우 높음I중대완화3-Gate 대기
High · 구조적
② UAE 86% 집중 (MBZUAI · G42)
관계기업 비중 압도. 매출채권 MBZUAI 77.9%. 지정학·deemed export 변동 시 즉시 타격.
P높음I중대완화OpenAI/AWS 매출 ramp
High · 경쟁
③ NVDA Dynamo + Groq 흡수
2026 H2 Vera Rubin에 Groq LPX 통합. SRAM 저지연 우위가 NVDA 생태계 컴포넌트로 commoditize.
P높음I중대완화벤더 lock-in 회피
Med · 회계
④ 흑자의 비현금 익스팅귀시먼트
GAAP 순이익 $238M의 $363M이 G42 forward contract 비현금 이익. non-GAAP 손실 -$76M.
P확정I중간완화OpenAI 매출 인식
Med · 공급망
⑤ TSMC N5 단일 파운드리
장기 allocation 미체결. CoWoS 패키징 NVDA·AMD와 캐파 경합. 대만 지정학.
P중간I중간완화Amkor AZ 분산
Med · CUDA
⑥ 소프트웨어 생태계 격차
CUDA·cuDNN·TensorRT·Triton 생태계 부재. 자체 CSL/SDK는 학습 곡선 가파름.
P지속I중간완화HuggingFace·PyTorch 통합
Med · 자본
⑦ 자본 집약도 / 후속 발행
750MW 약정 이행 위해 30,000+ CS-3 제조 필요. IPO $4.8B로 부족 — 후속 follow-on 가능성.
P높음I중간완화OpenAI $1B 운전대출
Med · 거버넌스
⑧ Triple-Class · 99.2% 의결권
창업자 의결권 압도, 일반주주 거버넌스 영향력 무력화. material weakness 2건 공시.
P확정I중간완화SOX 404(b) 5년 후
Med · OpenAI
⑨ OpenAI Titan 자체 ASIC
Broadcom + TSMC 3nm 2026 H2 양산 목표. OpenAI MRA 갱신 협상력에 직접 영향.
P중간I중대완화2027+ 본격화

2×2 리스크 매트릭스 (발생확률 × 영향)

IMPACT (영향) HIGH MED LOW LOW MED HIGH PROBABILITY (확률) — TOP RIGHT: CRITICAL — 락업 매물 UAE 집중 NVDA+Groq 회계 착시 TSMC CUDA 격차 자본 집약 Triple-Class OpenAI Titan
※ 우상단(높은 확률 × 큰 영향)의 ①②③이 핵심 모니터링 대상. 매수 전 3-게이트 통과 여부를 결정짓는 변수.
15

매수 결정 트리 (3-Gate Framework)

DECISION FRAMEWORK

세 개의 게이트를 시간 순서로 통과해야 분할 매수를 시작한다. 각 게이트 미통과 시 다음 게이트까지 보류이며, 3개 모두 통과 시 포트폴리오 5–8% 한도 내 단계적 매수. 페어 운용은 NVDA · AMD · ALAB 숏 또는 인덱스 헷지.

GATE 1 · OVERHANG
락업 매물 흡수
D-day → +6개월 (2026.05 → 11)
Day 1 7.5% 직원 해제 후 거래량 정상화
Price Trigger(+33%) 도달 시 추가 7.5% 매물 흡수 확인
Q3 26 실적 +2영업일 락업 만료 후 가격 회복
거래량 weighted 평균 가격이 30일 MA 회복
통과 시: Gate 2로 진행
미통과 시: 추가 6개월 대기. 분할 매수 보류.
GATE 2 · FUNDAMENTALS
매출 다각화 검증
+6개월 → +12개월 (2026.11 → 2027.05)
UAE 합산 비중 < 50% (분기 기준)
OpenAI 분기 매출 인식 가시화 ($100M+/Q)
AWS Bedrock GA 후 미국 매출 turn around
RPO 인식률 정상화 (분기당 2–4%)
non-GAAP 영업손실 축소 추세
통과 시: Gate 3로 진행
미통과 시: 매출 집중도 미해소 — 분할 매수 영구 보류.
GATE 3 · RELATIVE STRENGTH
NVDA 대비 상대강도
+12개월 → +24개월 (2027.05 → 2028.05)
12개월 NVDA 대비 +30%p 상대강도
NVDA Vera Rubin 출시 후에도 토큰 속도 우위 유지
2027E forward P/S 25–30× 정상화 진행
OpenAI MRA 갱신 또는 추가 hyperscaler 계약
3-Gate 모두 통과: 포트폴리오 5–8% 한도 분할 매수.
페어: NVDA/AMD/ALAB 헷지 운용.

포지션 사이징 가이드

최대 포트폴리오 비중5–8%
초기 진입 트랜치1/3
2차 트랜치 (Q2 27 실적 후)1/3
3차 트랜치 (Q4 27)1/3
손절선 (Stop-loss)-25%
목표가 (Base case)$200
목표가 (Bull case)$280

모니터링 시그널 (Watchlist)

긴급 (Daily): 거래량 spikes (락업 매물 사인), Class B 전환 공시, 13D/13G filings
분기 (Quarterly): 매출 집중도 (UAE %), OpenAI tranche 인식, RPO 변동, non-GAAP 영업이익
이벤트 (Event-driven): NVDA Vera Rubin GA, Broadcom Titan 양산, AMD MI450 출시, CFIUS 정책 변동
기술 (Technical): AWS Bedrock GA, GPT-5.x 모델 Cerebras 독점 채택, Llama N+1 토큰 속도 벤치마크

투자자 Type별 액션 (3-Persona Guide)

🎯 Day 1 살지 고민하는 retail

패스 권장. 24× oversubscribe 추격 매수는 통계적으로 1년 보유 -25% 가능성 큼. ARM·Astera·Klaviyo 패턴상 D+180 cliff retracement 통상. 11월 락업 풀린 후 $170–$200대 entry가 정답.

1~2% "speculation 비중"은 허용 가능 — 작은 위험으로 큰 upside 옵션 보유.

💎 IPO allocation 받은 행운아

공모가 $185에 받았으면 Day 1 close에 50% 익절, 나머지 50%는 장기 hold. 시나리오 B ($240) 도달 시 $55/주 차익 확정. 나머지는 OpenAI ramp + 2027 매출 인식 베팅.

한국 retail은 IPO allocation 거의 불가 — 현실적 첫 진입 가격이 Day 1 시초가이므로 위 1번 가이드 적용.

🏛️ AI 칩 long-term exposure

Broadcom (AVGO) + AMD + Cerebras (락업 후) 3-leg 분산이 single bet보다 안전. Cerebras single bet = 4년 hold, agentic shift 변수 큼. 포트폴리오 5–8% 한도, 페어 NVDA/AMD/ALAB 헷지 운용.

2029+ agentic shift 본격화 시 thesis 재평가 필수.

AI 인프라 picking 순서 (CBRS single bet vs portfolio 분산)

순위 종목 투자 논리
1 AVGO (Broadcom) ASIC toll booth — Google TPU, Meta MTIA, OpenAI Titan, ByteDance 등 모든 hyperscaler 자체 칩 설계 파트너. 모든 시나리오에서 이기는 구조
2 AMD NVDA 대안, ROCm 진전, MI450 (432GB HBM4) — Agentic 시장 적합. OpenAI 6GW · Meta 6GW 약정
3 GOOGL · AMZN Hyperscaler 자체 ASIC 익스포저 (TPU, Trainium). Cloud + 칩 두 영역 동시 익스포저
4 ★ CBRS (락업 후) Niche dominant + OpenAI 베팅. 11월 이후 entry 필수. 3년 hold thesis, agentic shift 확인하며 재평가
5 NVDA 황제이나 단일 monolith bet 비추. 포트폴리오 20–25% 비중. Vera Rubin + Dynamo + Groq 흡수로 inference 영역까지 방어
한국 종목으로 동일 thesis 익스포저: SK하이닉스 (HBM 1위, NVDA 직접 수혜) · 삼성전자 (HBM·DRAM·파운드리 종합) · 한미반도체 (TC bonder 글로벌 80%). 단 caveat — Cerebras는 HBM을 안 쓰므로 "Cerebras 매출 ramp이 HBM 수요에 직접 기여하지는 않음". 한국 메모리 thesis는 NVDA·AMD trajectory를 따라가는 것. Cerebras 단독 thesis는 미국 상장 CBRS만 가능 (Hiive 사적시장은 5/14 상장 후 종료).

🇰🇷 한국 Retail 실무 가이드 — 5/14 거래 시작 직전 체크포인트

⏰ Day 1 시초가 한국 시간
5/14 (목) 밤 22:30 KST에 미국 정규장 개시(09:30 ET). IPO 종목은 allocation 정리 시간 때문에 시장 개시 후 1~2시간 후 첫 trade 형성 — 실제 시초가는 한국 시간 5/15 (금) 새벽 0~1시쯤 형성. 시초가 변동성 매우 클 것이므로 limit order 추천 (market order는 비추).
🏛️ 한국에서 거래 가능 여부
5/14 Nasdaq 상장 후 국내 미국주식 broker (한투·삼성·NH·키움·미래에셋·토스 등) 거래 가능. IPO allocation은 한국 retail 입장에서 사실상 불가 (미국 broker도 ~0). 현실적 첫 진입 가격이 Day 1 시초가 ($200~280 추정)이므로 추격 매수 비추.
🧩 WSE-4 차세대 칩 Timing
S-1/A에 "future CS-4 systems" 언급 (G42·MBZUAI 수출 라이선스 맥락). 출시 시점은 2026~2027 H1 예상. SRAM 늘리고 effective bandwidth 더 높일 계획. WSE-4 출시 = 매출 cycle 한 번 더 잘 갈 catalyst. 단 SemiAnalysis 분석상 cooling 표준 1.5–1.7 LPM/kW 수렴이 핵심 마일스톤.
⚖️ UAE 86% ESG Caveat
UAE는 OECD/EU ESG 기준 (a) 인권 우려, (b) 화석연료 의존, (c) governance 투명도 issue. 글로벌 ESG 엄격 펀드는 Cerebras 매수 어려울 수 있음 — valuation discount의 한 요소. OpenAI ramp + UAE 비중 50% 이하 정상화(2027E 가정) 시 ESG 압박 완화 예상.
🥊 NVDA 잡을 수 있나?
정답: "NVDA 전체는 못 잡고, NVDA inference market의 10~15% niche를 가져갈 수 있다". NVDA는 학습 + 일반 inference 80%+ 유지, Cerebras는 specialized inference (LLM serving)에서 OpenAI·hyperscaler 일부 가져감. 둘 다 살아남는 게 base case. Cerebras 단독 thesis는 NVDA의 "anti-NVDA" 베팅이 아니라 "NVDA가 못 채우는 영역" 베팅.
💰 1~2% Speculation Position OK?
OK. 큰 비중은 비추지만 1~2% speculation 비중은 합리적. Bull case는 entry 가격 대비 +50~100% 가능 → 작은 위험으로 큰 upside option. 단 단기 (1~6개월) drawdown 각오 — 11월 락업 cliff에서 -20~30% 가능. 본격 비중은 락업 후 entry ($170~200대)부터.
최종 액션 요약 (Day 1 직전): (1) 시초가 $300+ 멜트업 시 미진입, $220 미만 안착 시 1~2% speculation 고려 가능. (2) Q2 (2026.08) 어닝에서 OpenAI 매출 인식 + UAE 비중 변화 확인. (3) 11/10 락업 cliff에서 -20~30% 조정 시 $170~200대 분할 매수 entry — 통계적으로 가장 안전한 진입. (4) 2027 Q1 OpenAI 본격 ramp 확인 시 add-on. 2029+ agentic shift 변수 재평가.
APPX

SemiAnalysis "Faster Tokens Please" 상세 정리

SOURCE MATERIAL · SEMIANALYSIS DEEP DIVE

본 부록은 SemiAnalysis "Cerebras — Faster Tokens Please" (Myron Xie · Jordan Nanos · Max Kan · 외 10인, 2026.05.13)의 모든 핵심 디테일을 빠짐없이 정리한다. Dylan Patel이 2021년 6월 Cerebras dedicated article을 쓴 이후 거의 5년 만의 본격 deep dive이며, normal article 4편 분량으로 fast inference / WSE-3 architecture / CS-3 system / BOM 분석 / 한계 / 로드맵 6개 영역을 다룬다. 메인 보고서가 종합 분석 형태인 반면 본 부록은 원문 quote 보존 + 표·카드·인사이트 박스로 1차 자료의 모든 디테일을 보존한다. 한국어 IPO Preview의 핵심 내용은 메인 보고서 본문(Section 02·06·07·08·09·10·11·12·13·15)에 모두 통합 반영되어 본 부록에서는 생략.

2.15년 만의 Dedicated Article — Cerebras의 운명 변화

SemiAnalysis(Myron Xie · Jordan Nanos · Max Kan, 2026.05.13)는 "Cerebras — Faster Tokens Please"를 발행. Dylan Patel이 2021년 6월 Cerebras dedicated article 작성한 이후 거의 5년 만의 본격 분석.

"It's been nearly 5 years since Dylan wrote a dedicated article about Cerebras in June of 2021. ... How times have changed. ... Up until just 6 months ago, we felt that the Wafer Scale Engine, despite its bold innovations, had some technical weaknesses that were too hard to cover up. Thus, the continued popularity of HBM-based accelerators such as GPU and TPU. The strengths of Cerebras (namely: speed), have been overlooked for years in favor of total throughput. But now, with frontier labs releasing fast, priority, standard and batch tiers of the same model weights, the world has revealed their preference for fast tokens with their wallets. This brings Cerebras's strengths to the fore and is the key reason why OpenAI is willing to fork over tens of billions of dollars for Cerebras compute."

— SemiAnalysis, 2026.05.13

SemiAnalysis 자체 stance 반전: 6개월 전까지만 해도 SRAM machine hater였으나, 시장의 revealed preference (사람들이 빠른 토큰에 더 많은 돈을 지불)가 명제를 뒤집음. 이 글은 4편의 normal article 분량이며, fast inference / WSE-3 / CS-3 / BOM / 한계 / 로드맵 6개 영역 deep dive.

2.2NVDA의 Groq $20B Licensiquihire (2025.12) — Inflection Point 입증

"Fast inference has arrived. While SemiAnalysis has historically been an SRAM machine hater, all this changed when Nvidia licensiquihired Groq in December 2025. Clearly Jensen saw at least $20B of value, and he was proven right just a couple months later when we hit the Claude Code Inflection Point. Now, the wafer is here to stay."

Jensen이 $20B 가치를 본 것 = NVDA 본인이 SRAM machine의 미래 가치를 인정한 것. "Claude Code Inflection Point"가 그 뒤 한두 달 만에 도래해 명제 입증. 이게 OpenAI가 Cerebras에 수십억 달러를 베팅한 근본 이유.

2.3Karpathy 인용 + Opus 4.6 Fast Revealed Preference

"Many (including Andrej Karpathy) previously believed that raw intelligence/capabilities mattered far more than speed, but our revealed preferences ended up proving that there are times when the opposite is true. Past a certain threshold of intelligence, developers prefer faster tokens to smarter tokens. And in a world where AI is involved in almost every aspect of your workflow, the speed at which tokens are generated can be the bottleneck to 'flow state'."

Anthropic Opus 4.6 Fast — 실증 데이터

  • Opus 4.6 fast 가격: 6× the price for 2.5× the interactivity
  • SemiAnalysis 자체 AI 지출: 4월에 ~$10M ARR로 정점, 그 중 80%가 Opus 4.6 fast
  • Opus 4.7 출시 후: SemiAnalysis 엔지니어 다수가 fast mode 없어서 4.7 switch 거부 — "the first time we've ever decided to forgo frontier intelligence in exchange for faster tokens"
  • 최근 속도 저하: Opus 4.6 fast가 원래 >100 tps (2.5× 보장) → 최근 ~70 tps로 저하 (1.75× / 2× 미만). Claude Code에서 Standard Opus 4.6 interactivity는 consistently ~40 tps
  • Opus 4.6 Fast = Anthropic 최고 마진 SKU + 2026 ARR 폭발의 큰 이유 (SemiAnalysis 분석)
  • OpenRouter와 협력해 두 모드 데이터 수집
"속도 자체가 ARR 폭발 SKU" — Anthropic이 Opus Fast로 검증, OpenAI가 Cerebras로 이를 활용. 속도 + 가격 차별화가 frontier lab의 새 수익 패러다임.

2.4Throughput–Interactivity Pareto Frontier (Jensen GTC 2026)

SemiAnalysis는 Jensen이 GTC 2026에서 강조한 inference의 본질적 트레이드오프를 정식화:

Throughput 축
tokens/sec/GPU
한 chip(GPU)이 모든 사용자에게 동시 토해내는 총 토큰 수. 데이터센터 입장에서 효율성.
Interactivity 축
tokens/sec/user
한 user가 받는 토큰 속도. 사용자 입장에서 UX.

"In our original InferenceX writeup, we described it as a bus vs a Ferrari: you can choose to serve lots of users slowly, a single user quickly, or anything in between. ... Users are also willing to pay more money for higher interactivity, so it's currently unclear exactly which spot along the pareto frontier maximizes overall revenue. ... Fast mode, priority mode, batch pricing, and specific model architectures are all experiments from OpenAI and Anthropic to find the optimal combination."

Batch Size 조작 = 같은 hardware에서 frontier 이동

같은 GPU에서 batch size (concurrency, 동시 서비스하는 user 수)를 조정해 frontier 따라 이동. InferenceX는 3개 input/output sequence length 조합 × top open-source 모델 전체 frontier 측정.

2.5GB300 NVL72 Throughput — H100 대비 20×–100×

InteractivityH100GB300 NVL72배수
40 tps (낮은 interactivity)baseline20× throughput20×
120 tps (높은 interactivity)baseline100× throughput100×
NVDA 자체도 generation별로 frontier "위로 + 우측으로" 확장 중. H100 → B200 → GB300 → Rubin 각각 메모리 BW + 컴퓨트 도약. Cerebras는 이 frontier의 우측을 "off the chart"로 점유.

2.6SRAM Machines — Frontier Extension

"Alternatively, you can move along the frontier by changing the underlying hardware. This is the promise of SRAM machines like Cerebras and Groq. Their extremely high memory bandwidth allows them to increase throughput at high interactivity, and in the extreme case, achieve interactivity levels that are simply impossible for HBM-based accelerators. Cerebras offers speeds in the thousands of tokens per second, which is literally off the chart compared to the accelerators we benchmark in InferenceMax."

SRAM 머신의 두 효과: (a) serve more users concurrently at premium speed (pushing frontier "위쪽"), (b) serve some users at even faster, more expensive speeds (extending frontier "우측으로"). 사람들이 더 빠른 토큰에 더 많은 돈을 낼 의향이 있다는 시장 사실이 SRAM machines를 매력적으로 만듦.

2.7Wafer-Scale Engine 구조 — 12×7 = 84 Die Grid

Cerebras의 fundamental bet: reticle limit를 넘어 wafer 전체를 single chip으로. 단일 reticle pattern (mask-based lithography) 최대 858 mm² — Cerebras는 이를 깨고 wafer 전체 사용.

Die Grid
12 × 7 = 84 die
동일 stepping/die 84개가 wafer 전체에서 하나의 silicon으로 연결
Silicon 면적 분배
50% SRAM / 50% Compute
매우 빠른 SRAM cells 50% + compute cores 50%

핵심 혁신: silicon과 memory가 하나의 piece of silicon 위에 공존. off-silicon / off-package data movement 제거 → power · latency · cost 절감.

2.8On-Wafer Dataflow vs Off-Package Scale-Up

"Traditional" GPU/XPU는 advanced packaging + networking으로 aggregate compute/memory 확보 — power · speed · networking 비용 발생.

"While not a like-for-like comparison, Cerebras compares its on-wafer dataflow speeds to Nvidia's off-package scale-up bandwidth based on the assumption that data can stay on the WSE whereas GPU data needs to move off-package."

Cerebras 마케팅 caveat: on-wafer 21 PB/s vs GPU off-package scale-up BW 비교는 직접 like-for-like 아님. 그러나 data가 wafer에 머무는 경우 그 차이가 실제 latency 우위로 전환되는 것은 사실.

2.9WSE-3 Spec 상세 (5nm TSMC N5)

SpecWSE-3비고
ProcessTSMC N5 (5nm)3nm 미사용 (capacity 여유)
전체 면적46,225 mm²NVDA B200 package (1,600mm²) 대비 ×29
트랜지스터4조 (4T)B200 208B 대비 ×19
코어 (제조 / 활성)970,000 / 900,000~7.2% redundancy
on-chip SRAM44 GBGroq LPU per chip 0.5GB 대비 ×88
SRAM BW21 PB/sHBM의 thousands ×
off-wafer BW150 GB/s약점 — GPU의 fraction

2.10★ Feldman's Formula — Sparse vs Dense FP16

"While Cerebras markets a lot of FLOPs for the WSE-3: 125 PFLOPs of FP16 compute, this is a sparse number, not a dense number. This is taking a page out of the Jensen Math playbook but taking it further. Unlike Nvidia, Cerebras doesn't actually state dense FLOPs in public WSE marketing materials. However, Cerebras assumes 8:1 unstructured sparsity in its sparse number, so dense FLOPS is actually 1/8th or 15.6 PFLOPS of FP16 compute throughput. We call this 'Feldman's Formula.' For the CS-2/WSE-2 a 10:1 ratio was assumed — as we see below, the sparse and dense spec is an order of magnitude different."

ChipSparse (marketed)Dense (actual)Note
WSE-3 (FP16)125 PFLOPS15.625 PFLOPS8:1 unstructured sparsity (Feldman Formula)
WSE-2 (FP16)~~10:1 sparsity (더 큰 부풀림)
NVDA B300 (FP4 native)~13.5 PFLOPS2:1 sparsity (Jensen Math)
NVDA GB300 (FP4 native)~15.0 PFLOPS
NVDA Rubin (FP4 native)~35.0 PFLOPS2026~2027 출시 예정
중요 함의: FP4와 FP16은 like-for-like 비교 부적절. 그러나 most production inference가 FP4로 이동 중. 실질적으로 비교 가능한 metric. WSE-3 dense FP16 15.6 PFLOPS는 B300 FP4 13.5와 동급, Rubin (35) 출시 시 Cerebras가 절대 컴퓨트에서 뒤처짐. Cerebras의 compute per silicon area는 별로 인상적 X — 각 core가 GPU의 functional array보다 훨씬 작은 게 yield harvesting 위해.

2.11★ 150 GB/s Off-Wafer Networking — Fatal하지 않지만 Handicap

"The last part is off-wafer networking, which stands as the weakest part of the WSE. In total there is only 150GB/s of bandwidth, a fraction of GPU/XPU competitors who place huge importance on network to scale capability. ... The lack of network bandwidth, while not fatal, is certainly a handicap in the WSE-3 design preventing Cerebras from launching their business to the stratosphere."

네트워킹이 약하면 wafer를 더 묶기 어려움 → 메모리 capacity 추가 확장 어렵고, agentic 워크로드 큰 KV cache · 큰 모델 처리에 약점. "escape hatch of networking more wafers together is also much narrower for Cerebras".

2.12SRAM Machines vs HBM — Capacity 한계

SRAM은 fast이지만 capacity per bit가 비쌈. HBM은 capacity 위주, SRAM은 BW/latency 위주.

Chip메모리 capacity메모리 BW분류
WSE-344 GB SRAM21 PB/sSRAM machine
Groq LPU (per chip)0.5 GB SRAM매우 높음SRAM machine
B300 (8-stack HBM3E 12-Hi)288 GB HBM~8 TB/sHBM-based
vs WSE-3 capacity6.5× more

메모리 활용 3가지 이유 (AI system designer 관점)

  1. fit a larger model (more parameters)
  2. serve more concurrent requests (more KV Cache)
  3. support larger context windows (more KV Cache)
Inference 제공자는 위 3가지로 비즈니스 — 그래서 GPU memory capacity가 점점 늘어남. HBM은 scale-up fabric으로 더 풀링 가능하나 Cerebras는 150 GB/s 네트워크 약점으로 다중 wafer pooling 제한적.

2.13Cerebras 3가지 Proprietary Technologies

SemiAnalysis는 Cerebras가 다른 액셀러레이터 스타트업과 달리 진짜 proprietary 하드웨어 기술 보유했다고 평가. The wafer is a bold bet and not easy for incumbents and competitors to replicate.

① Cross-Die Wiring & Routing
Scribe lines as wiring
기존 wafer에서 scribe lines은 die dicing용 keep-out zone. Cerebras는 이걸 on-wafer data fabric으로 활용해 84 die를 연결. Proprietary cross-reticle connection을 fabrication process에 통합.
② Redundancy & Failure Routing
970k → 900k cores
결함 core 우회 라우팅 능력 — 결함 불가피 (reticle 크기 chip은 sort yield 50% 이하 통상). 각 core를 일부러 작게 design — yield harvesting 위해. 배치별 mask set 추가 비용 발생.
③ Power Delivery & Cooling
25 kW per wafer
20 kW+ 전력을 single wafer에 공급 (다음 세대는 더 많이). Vicor 커스텀 power delivery. 그 열을 제거해야 함 → "engine block" 서브어셈블리 — WSE silicon 자체만큼 unique architectured.

2.14Yield Harvesting + ★ 배치별 Custom Mask Set

"For the sake of redundancy, there are a total of 970,000 cores on the WSE, of which 900,000 are enabled. Each core is deliberately made much smaller for the sake of better yield harvesting. However, this is not simple and there is a significant additional cost required. One of the interesting things done is that each batch of wafers will have a custom mask set for the upper metal layers. This is for the purposes of having different wiring for each batch to route around all the defective tiles. The cost of additional masks is a material increase in cost on top of the nominal TSMC wafer cost. Why is this for every batch of wafers? This comes down to intra-batch process variation being lower than across different batches. The net result of this is that wafer-level yield ends up being high. Nearly 100% of the TSMC wafer output is good enough to be assembled into a production server."

~100% wafer yield 달성이 Cerebras의 가장 큰 manufacturing 비결. 단 배치마다 다른 mask set이라는 추가 비용 누적. TSMC nominal wafer cost (~$20k) + 배치별 mask 추가 = BOM에서 silicon 비중을 크게 늘림. SemiAnalysis가 명시한 "embracing chaos: imperfect art of process variation"의 응용.

2.15Thermal Design — 25 kW @ 21.5×21.5 cm Wafer

핵심 문제: 25 kW를 single 46,225 mm² wafer에서 제거 — 표면 평균 ~50 W/cm²(hotspot 미반영).

왜 Air Cooling 불가

  • 3DVC vapor chamber heat spreader (HGX H100 서버에서 사용)를 21.5 cm die span에 scale 시 wick의 capillary limit 초과 → working fluid가 evaporator로 돌아오기 전 dry out
  • CS-3는 custom liquid-cooled stack 사용 — Nvidia의 직접-to-chip 단상 deploy와 다른 architecture / flow rates / rack-level plumbing

Thermal 솔루션 100% Custom + Co-Designed

  • 실리콘과 PCB의 열팽창률 다름 — 21.5×21.5 cm 영역에서 mismatch는 일반 패키지를 깨뜨릴 수준
  • Cold plate · wafer-to-PCB bridge connector · 조립 tooling 모두 처음부터 새로 구축
  • Heat rejection: cold plate 뒷면에 micro-fin channels로 coolant 흐름
  • Wafer-facing side는 polished, silicon에 preload로 압착. 두 face가 서로 다른 expansion rate로 slide하면서도 contact 유지해 heat spread

2.16"Engine Block" — 4-Layer Sandwich

Cerebras 시스템의 핵심 sub-assembly:

  1. Cold plate (상단)
  2. Wafer (WSE-3)
  3. Compliant connector (wafer-PCB bridge)
  4. PCB (하단)
  5. Cooling manifold: cold plate 뒷면에 mated

2.17LiquidStack (Trane Acquisition 2026.3) + L2L Single-Phase CDU

Cerebras 주요 cooling 파트너 — LiquidStack. Trane Technologies가 2026.3월 인수. LiquidStack과 Cerebras는 처음에 two-phase 솔루션 작업 시작, 이후 L2L single-phase CDU를 CS-3의 flow와 pressure envelope에 맞춰 공동 개발.

2.18★ Rack-to-CDU Interface — CS-3는 NVL72의 3× Cooling 요구

SystemFlow rateLPM/kWNote
GB200 NVL72 (reference)— @ —1.5 LPM/kWOCP/Nvidia reference, 대부분 CDU fleet 표준
CS-3~100 LPM @ 25kW4 LPM/kWNVL72의 ~3×
CS-4 (목표)1.5–1.7 LPM/kW표준화 수렴 (hyperscaler colocation 확장 가능)
NVL72 1.5 LPM/kW 표준 대비 CS-3 4 LPM/kW = operator는 larger pumps · larger pipes · oversized CDU · higher flow quick-disconnects 필요. CAPEX 부담. CS-4가 1.5-1.7로 수렴해야 hyperscaler colocation 확장 용이 — Cerebras 로드맵의 핵심 목표.

2.19★ Inlet Temperature — CS-3 21°C vs NVL72 45°C

SystemInlet tempImplication
NVL7245°C (113°F)Free cooling 가능 (1년 대부분)
CS-321°C (~70°F)Chiller heavy 인프라 필요

Oklahoma Facility — 6,000-Ton Chiller Plant

Cerebras의 Oklahoma facility는 6,000-ton chiller plant 운영 — 5°C (42°F) chilled water 생산 → heat exchanger로 ~21°C (~70°F)까지 warm → engine block 도달.

Wafer-level heat flux가 colder envelope 요구cost는 chiller-heavy facility. NVDA NVL72는 1년 대부분 free cooling 가능한 반면 Cerebras는 chiller 계속 가동. OPEX 부담이며 hyperscaler가 기존 인프라로 Cerebras 운영하기 어려운 이유.

2.20CS-3 시스템 구성 — Engine Block + KVSS Node

각 CS-3에 포함된 것

  • 1× WSE-3 engine block (4-layer sandwich)
  • Peripheral compute and I/O modules
  • 2× mechanical pumps
  • 12× 3.3 kW PSU (총 39.6 kW PSU capacity)
  • Liquid-to-air or liquid-to-liquid cooling system

WSE-3 Engine Block 내부 전력 흐름

  1. WSE-3 engine = 25 kW 전력 소비
  2. 12× 3.3kW PSU에서 blind mated power connector로 공급
  3. PSU → 50V → 12 PDB boards (horizontal stack)
  4. Each PDB board → 7 Vicor power bricks = 12 PDB × 7 = 84 power bricks (WSE-3 84 die에 매칭)
  5. 12V → Vicor power delivery module (PCB 상단, wafer 반대편)
  6. Vicor brick → 1V 변환 → wafer 공급
  7. WSE-3는 elastomer socket으로 PCB에 socketed

★ KVSS Node — Dual AMD CPU + 6TB DDR5 RDIMM

"In addition, each CS server has a separate 'KVSS' node. This is a dual socket AMD CPU node with 6TB of DDR5 RDIMM which is used for KVCache offload. ... We estimated the BoM cost of the CS-3 system and the KVSS CPU node to be $350k USD per rack before the memory price hike that started in Q4 last year. Accounting for the latest memory price hike, we have raised the estimate of the BoM of the CS-3 system and the KVSS CPU node to $450k USD per rack."

I/O 구성

  • Engine block 상단: I/O FPGA module — WSE-3 PCB와 board-to-board connector로 연결
  • FPGA = NIC 역할, Cerebras proprietary I/O를 Ethernet (외부 scale-out) + PCIe로 변환
  • 12× 100GbE Xilinx FPGA
  • Cold plates: WSE-3 engine + Vicor power delivery module + CPUs + I/O FPGAs에 각각 부착
  • Manifold: WSE-3 engine block 우측 6 couplings — 4 to pump, 2 to L2A/L2L

2.21★ CS-3 BOM 분해 — $450k per Rack

BOM 항목추정 비용비고
TSMC N5 wafer (single)~$20knominal cost (silicon 자체)
└ 배치별 mask set상당 추가"material increase" on top of nominal wafer cost
Vicor 커스텀 VRM (25kW + VPD)~TSMC content와 유사고비용 bespoke VRM
12× 3.3kW PSU표준commodity
커스텀 cold plate + manifold고비용100% custom + co-designed
KVSS node (dual AMD CPU + 6TB DDR5)메모리價 ↑2025 Q4 메모리 가격 인상 직격
12× 100GbE Xilinx FPGA NIC고정NIC 역할
조립·패키징Cerebras 자체외부 contract manufacturer 아님
총 BOM (메모리價 인상 후)$450k / rack이전 $350k → +28.6% (메모리 hike)
BOM 구성의 특이성: Silicon 자체 (~$20k)는 BOM의 일부에 불과. Vicor VRM은 TSMC와 유사 비중. 커스텀 cooling + 자체 조립 + KVSS node 메모리가 결정적. 메모리 가격 swing에 직접 노출 → GM 압박 요인. AMD CPU + 6TB DDR5 RDIMM이 KV cache offload용으로 분리 노드.

2.22Arithmetic Intensity — Performance Engineer 관점

"To performance engineers, a chip is a tool. Whether you are using 10,000 LPUs, 72 GPUs, or 1 wafer to get the job done, what matters is the 'arithmetic intensity' of the chip — how many FLOPs the chip can perform for every byte it transfers to/from memory (FLOPs/byte)."

GEMM Kernels — Memory Bound vs Compute Bound

AI에서 canonical kernel은 GEMMs (general matrix multiplication). matrix shape에 따라:

  • Memory bound: performance = available bandwidth에 묶임
  • Compute bound: performance = available FLOPs에 묶임
Cerebras의 21 PB/s memory BW는 memory-bound kernel에서 압도적 우위. 그러나 compute-bound kernel에서는 dense 15.6 PFLOPS만 사용 가능 — GPU 대비 압도적 우위 없음. 워크로드 mix가 BW-heavy면 Cerebras 유리, compute-heavy면 NVDA 유리.

2.23Dense FP16 vs FP4 Comparison Table — WSE-3 vs B300/GB300/Rubin

SemiAnalysis가 공개 데이터시트(NVDA, Groq, Cerebras)로 작성한 theoretical maximum table 요지:

ChipDense computeNote
WSE-315.625 PFLOPS FP16Sparse marketing 125 PF / 8 = dense
B30013.5 PFLOPS FP4NVDA native FP4
GB30015.0 PFLOPS FP4NVDA Blackwell Ultra
Rubin35.0 PFLOPS FP4다음 세대 NVDA — 2026~2027 출시
주요 시사점: FP4와 FP16 직접 비교 부적절. 그러나 production inference 대부분 FP4로 이동하는 추세. Cerebras 마케팅·S-1은 sparsity factor 8× 적용한 PFLOPs 표기 — Jensen Math 2× sparsity보다 더 큰 부풀림.

2.24OpenAI Deal — TSMC Wafer Loadings 분기마다 Step-Up

"With that said, Cerebras is now on the path to being a healthy and rapidly growing business, with its OAI deal being a game-changer: until 2028 Cerebras will need to ship an order of magnitude more servers than they have since inception. The demand surge is already visible in TSMC's wafer loadings, which step up materially each quarter through the year to meet OpenAI's deployment requirements. We expect Cerebras revenue to inflect sharply in the coming years, with OpenAI as the primary growth driver."

SemiAnalysis Accelerator Model + HBM Model로 확인된 사실 — 2028년까지 Cerebras가 inception 이후 전체 출하 합산보다 order of magnitude 더 많이 출하해야 함. TSMC wafer loadings가 분기마다 step-up 중. OpenAI가 primary growth driver로 자리 잡음.

2.25Hybrid Bonding Wafer-Scale Optical Transceiver (HPC용)

"For paid subscribers we also show ... we will talk about Cerebras' future plans of hybrid bonding a wafer scale optical transceiver onto their WSE compute engine, which they claim they are pursuing strictly for the love the game as it is not needed for LLM inference, but is needed for HPC boomer workloads. The HPC customers whom NVIDIA has effectively abandoned after reducing FP64 native hardware on their GPUs to basically nothing."

두 가지 의미

  • WSE에 optical transceiver를 hybrid bonding으로 직접 통합하는 차세대 R&D
  • NVDA가 FP64 native hardware를 거의 없애면서 HPC (high-performance computing) 고객 abandon → Cerebras가 이 시장 흡수 시도
  • "love the game" — LLM inference에는 불필요하나 추구. HPC 고객 (national lab, supercomputing center 등)이 잠재 타겟
Cerebras의 multi-market strategy: Primary = LLM inference (OpenAI deal로 검증). Secondary = HPC (NVDA가 떠난 시장). Hybrid bonding optical transceiver로 wafer-scale 우위를 HPC scale-out까지 확장 추구.

2.26SemiAnalysis 종합 결론 — Cerebras의 위치

SemiAnalysis의 종합 평가:

강점 (Cerebras Advantages)

  • 진짜 proprietary 하드웨어 기술 — 다른 액셀러레이터 스타트업이 가져오지 못한 혁신 (cross-die wiring, fault tolerance, custom power/cooling)
  • The wafer is a bold bet and not easy for incumbents and competitors to replicate
  • SRAM machine으로서 frontier 우측을 점유 — off-the-chart interactivity
  • ~100% wafer yield (배치별 mask set 덕분)
  • OpenAI deal로 healthy + rapidly growing business path 확보

약점 (Cerebras Handicaps)

  • 150 GB/s off-wafer 네트워킹 — fatal하지 않지만 handicap. "stratosphere로 launching 못 함"
  • 44GB SRAM capacity — B300 8-stack HBM 288GB 대비 6.5× 적음. 큰 모델·long context 어려움
  • Dense FP16 15.6 PFLOPS — B300 FP4 13.5와 동급, Rubin 35 출시 시 절대 컴퓨트 뒤처짐
  • 4 LPM/kW cooling — NVL72 1.5의 3×, hyperscaler 표준 인프라와 호환 어려움
  • 21°C inlet — chiller heavy 인프라 (OPEX 부담)
  • BOM $450k/rack — silicon은 일부, custom 부품 비중 큼
  • Compute per silicon area — yield harvesting 위해 코어 작게 design → 효율 trade-off

전망

SemiAnalysis는 "the wafer is here to stay"라고 결론. 그러나 CS-4가 표준 cooling envelope으로 수렴해야 hyperscaler colocation 확장 가능. OpenAI deal이 wafer loadings step-up driver. Frontier labs의 가격 차별화 (fast/priority/standard/batch tier)가 SRAM machine의 경제적 정당성을 검증.

SemiAnalysis 최종 quote: "We love the wafer." — 5년 전 dedicated article 이후 처음 발행하는 long-form. SRAM machine hater였던 자신들의 stance를 6개월 만에 뒤집은 분석. NVDA Groq 인수 + Claude Code Inflection Point + OpenAI deal 3박자가 Cerebras 운명을 바꿈.
16

주의사항 및 출처

CAVEATS & SOURCES

중요 면책사항 (Disclaimers)

  1. C1 본 보고서는 가격결정 직후 (2026.05.13) 작성된 v2.0이다. 공모가 $185 above-range pricing은 확정이나 5월 14일 시초가·첫날 종가는 미확정. 모든 시초가 시나리오·12M target은 가정에 따른 추정치이며, 본 보고서 발간 후 실제 데이터로 갱신해야 한다.
  2. C2 OpenAI MRA 규모는 자료마다 $10B+ (CNBC 2026.1)와 $20B+ (The Information 후속)로 차이가 있다. 본 보고서는 보다 최신 자료 기준 $20B+로 표기.
  3. C3 락업 구조는 비표준이며, S-1/A 실제 문구는 "earlier of (i) 180 days, (ii) 2 trading days after Q3 26 earnings"와 별도 Price Trigger 조항을 포함한다. "락업 부재"라는 표현은 부정확하며, 실제는 "비표준 + 단계적 + Price Trigger" 조합.
  4. C4 2026 매출 구성 시나리오(섹션 04)는 RPO 인식 가정에 따른 작성자 추정. 실제 OpenAI tranche 일정·deemed export 변동에 따라 크게 달라질 수 있다.
  5. C5 토큰 속도 벤치마크는 벤더 발표치 또는 Artificial Analysis 측정치. 워크로드(batch size, sequence length, quantization)별로 차이가 크다.
  6. C6 2027E 매출·P/S은 작성자 추정이며, RPO ($24.6B) 인식률 가정에 강하게 의존한다. Cerebras 공식 가이던스가 아니다.
  7. C7 피어 비교 P/S은 가격결정일 직전 기준. 시장 변동에 따라 즉시 변할 수 있다.
  8. C8 NVDA-Groq 인수는 비독점 라이센스 + acquihire 외형. 공식 인수가 아니며 양사 발표 기준 $20B 규모 deal로 표현됨.
  9. C9 OpenAI Titan 코드명은 일부 매체 추정. Broadcom·OpenAI는 공식 코드명 공개하지 않음. TSMC 3nm·2026 H2 양산 일정도 비공식.
  10. C10 본 자료는 투자 권유가 아니며 정보 제공 목적이다. 작성자는 Cerebras 보유 또는 미보유 여부를 별도 공시하지 않는다. 모든 투자 판단은 독자의 책임.

주요 출처 (Primary Sources)

SEC 공시
· Cerebras Systems S-1 (2026.4.17), S-1/A (2026.5.4), S-1/A 수정 (2026.5.11)
· FY24·FY25 감사 재무제표, related party 공시 (ASC 850)
· 2025.10 CFIUS 클리어런스 공시

시장 데이터
· Bloomberg, CNBC, Reuters, The Information
· Hiive 사적시장 indicative quotes (2026.5)
· Polymarket IPO odds
· Artificial Analysis 추론 벤치마크

기업 자료
· Cerebras 공식 블로그 (Disaggregated Inference, WSE-3, CS-3 vs B200, vs Groq LPU, Defect Tolerance)
· NVIDIA Vera Rubin developer blog · GTC 2026 keynote
· OpenAI · AWS · Broadcom · TSMC · Amkor · Vicor · Nautilus 발표자료
· NVIDIA FY26 10-K · AMD MI450 launch deck

분석 자료
· SemiAnalysis — "Cerebras: Faster Tokens Please" (2026.05.13) — Throughput-Interactivity frontier, BOM 분석, Feldman's Formula, CS-3 cooling/power
· SemiAnalysis InferenceX Dashboard, Tokenomics Model, Accelerator Model
· SemiAnalysis "Claude Code Inflection Point" — Opus 4.6 Fast 사용 패턴
· SemiAnalysis "Nvidia: The Inference Kingdom Expands" — Dynamo, KV Smart Router
· Morningstar, Futurum Group, TradingKey, Sacra, TechMarketBriefs
· Stanford GSB Case "Cerebras: A Tale of Dreams and Risks"
· arXiv 2503.11698v1 (Cerebras vs Nvidia 비교)
· CNBC, Reuters, Bloomberg, The Information IPO 보도

보조 자료
· 외부 IPO 프리뷰 (블로그 형식 한국어 분석, 2026.05.12) — 100~150 t/s 임계점, G42 Rentback GM 영향, 3-시장 framework, Opus Fast 비교