2026년 글로벌 최대 AI 인프라 IPO. 공모가 $185 above-range pricing, 발행 주식수 215.23M주, 상장 시총 $39.8B (Fully Diluted $56.4B)로 5월 14일 나스닥 데뷔. 당초 $115–$125 → $150–$160 → 최종 $185로 2주 만에 가격 +57% 인상, 24× 초과청약 흡수. OpenAI와의 $20B+ 다년 계약(750MW + 1.25GW 옵션)·AWS Bedrock 분해형 추론 통합이라는 양대 카드를 손에 쥐었다. 그러나 매출의 86%가 UAE 두 곳, 보고된 $238M 흑자의 대부분이 비현금 회계 이익, 그리고 2026 Q3 결산 +2영업일 락업 만료 시 ~171M주 잠재 매물이 동시에 존재한다. 본 보고서는 (i) SEC S-1/A · (ii) 사전 분석 보고서 두 종 · (iii) SemiAnalysis "Cerebras — Faster Tokens Please" (2026.05.13) · (iv) 추가 IPO 프리뷰 자료를 교차 검증·통합한 분석이다.
2주 만에 공모가 +57% 인상($115–$125 → $150–$160 → 최종 $185)과 24× 초과청약은 인수단(Morgan Stanley · Citi · Barclays · UBS)의 가격결정에서 시초가 폭등을 사전에 흡수하려는 의도적 조정의 결과다. 발행 주식 수는 28M → 30M으로 확대, Hiive 사적시장 5/11 거래가 $187.53와 사실상 일치하는 above-range pricing이다.
매출은 4년 만에 20×, 표면 GAAP 순이익 $237.8M으로 흑자전환. 그러나 흑자의 정체는 G42 forward contract 비현금 익스팅귀시먼트 $363.3M이며, 이를 제외한 non-GAAP 순손실은 -$75.7M, GAAP 영업손실은 -$145.9M으로 오히려 확대되었다. 미국 매출은 절대 금액 기준 $282.7M → $187.6M으로 -34% 감소했고, 모든 성장은 UAE 청구에서 발생했다.
첫 IPO 시도(2024.9)를 무산시킨 G42 단일 집중 문제는 본질적으로 해소되지 않았으며, 2024년 G42 85% 단일 → 2025년 MBZUAI 62% + G42 24% 합산 86%로 "이전"되었을 뿐이다. 양사는 ASC 850 기준 관계기업이며 매출채권은 MBZUAI 단독 77.9%. 다가오는 OpenAI MRA가 매출의 substantial portion을 차지하면 집중도는 "UAE → OpenAI"로 다시 한 번 이전될 가능성이 높다.
Cerebras는 reticle limit(다이당 ~858 mm²)을 무시하고 스크라이브 라인에 배선을 깔아 웨이퍼 한 장 전체를 하나의 칩으로 사용한다. 그 결과 다이 면적 46,225 mm²(H100의 57×), on-chip SRAM 44GB · 메모리 대역폭 21 PB/s — H100 HBM3 3.35 TB/s 대비 약 6,300배. 약점은 명확하다. 칩 간 네트워킹(클러스터링)이 NVLink 인프라 대비 약하고, 절대 메모리 용량이 작아 큰 모델·큰 KV cache가 안 들어가며, 웨이퍼 전체 활용으로 수율 부담이 가격에 전가된다.
LLM 추론은 세 단계로 구성되며 각 단계의 병목 위치가 다르다. Prefill은 컴퓨트 바운드(병렬), Decode 1·2단계는 메모리 대역폭 바운드(직렬). Decode가 곧 토큰 생성 속도이며, 디코드는 메모리에 묶인다는 사실이 Cerebras의 21 PB/s SRAM 아키텍처가 가지는 본질적 가치다. SemiAnalysis는 이를 throughput–interactivity Pareto frontier로 정식화한다 — HBM 기반 GPU는 곡선 좌측(낮은 interactivity, 높은 throughput), SRAM 머신(Cerebras·Groq)은 곡선 우측(높은 interactivity, off-the-chart 토큰 속도) 영역을 점유한다.
Jensen Huang(GTC 2026)가 강조한 추론의 본질적 트레이드오프 — throughput (tok/s/GPU) vs interactivity (tok/s/user). InferenceX 측정에 따르면 GB300 NVL72는 40 tps에서 H100 대비 20× throughput, 120 tps에서는 100× throughput으로 확장된다. SRAM 머신(Cerebras·Groq)은 interactivity 축 우측에서 "off the chart" — HBM 기반 가속기로는 도달 불가능한 1,000+ tps 영역을 점유한다.
"70B-parameter 모델 weight는 약 100 HD movies 분량 데이터예요. 토큰 하나 만들 때마다 그 100 HD movies가 전부 메모리에서 컴퓨트로 이동해야 합니다. 답변 1,000 단어 만들면? 100,000 HD movies 분량 데이터 이동. ... HBM→GPU는 8 TB/s. Cerebras wafer 내부는 21,000 TB/s — 2,600배 빠름. 이게 우리 fundamental advantage."
Feldman의 결정적 발언 — "GPU에는 가격이 하나가 아니다. 35 t/s에서 GB200 NVL72는 aggregate 30,000 t/s 토해낸다. 효율적. 수만 명 동시 서비스 가능. 그런데 270 t/s 단일 유저 서비스로 가면? 한 유저당 270 t/s 가능하지만 unbelievably expensive. 100~150 t/s 임계점부터 GPU는 비효율, 전력도 비효율. 이때 Cerebras는 비용도 전력도 fraction. NVDA chart 위에 우리를 그릴 수 없다 — x축 자체를 바꿔야 한다."
"Paul Graham (Y Combinator 창업자)이 트위터에 썼어요: 'I would use Google half as much if ChatGPT weren't so slow.' 즉 사람들이 ChatGPT가 느려서 Google로 떠난다는 거. Sam Altman (OpenAI CEO)이 답글: 'We're going to fix this.' Elon Musk가 끼어들었어요: 'Not everyone's that slow.' ... 그러면 OpenAI가 어떻게 fix 했나? They fixed it by doing the deal with Cerebras. $20B+ over several years."
추론 시장은 사람이 답을 기다리는 'Answer'와 컴퓨터끼리 일하는 'Agentic'으로 갈린다. 여기에 'Coding'이라는 세 번째 영역이 추가되며, OpenAI Codex-Spark가 Cerebras 추론 위에서 1,000+ t/s로 구동되는 사실(S-1/A 명시)이 그 증거다. Cerebras의 토큰 속도 우위는 Answer · Coding 시장에서 곧장 UX·가격 프리미엄으로 전환되지만, Agentic 시장은 시간보다 메모리 계층 효율(KV cache · host RAM · SSD · DB · object store)이 핵심이라 NVDA의 Dynamo + GB300/Rubin · AMD MI450(432GB HBM4)이 더 유리할 수 있다. Agentic 시장이 더 빠르게 큰다는 가설이 베어 케이스의 핵심.
"All of this falls under the banner of 'inference', but I think it will be increasingly clear that there is a difference between providing an answer — what I will call 'answer inference' — and doing a task — what I will call 'agentic inference.' Cerebras' target market is 'answer inference'; in the long run, I think the architecture for 'agentic inference' will look a lot different, not just from Cerebras' approach, but from the GPU approach as well."
"The company is highlighting the usefulness of speed for coding ... but I think this is a temporary use case. Coding with LLMs requires a human in the loop. ... it's not hard to envision a future where all of this is completely handled by machines. The true power of agents will not be that they do work for humans, but rather that they do work without human involvement at all."
"The limitation in terms of training also potentially applies in terms of inference: as long as everything fits in on-chip memory Cerebras' speed is an incredible experience; the moment you need more memory, whether that be for a larger model or, more likely, a larger KV cache, then Cerebras doesn't make much sense, particularly given the price."
OpenAI는 NVDA $100B(10GW LOI), Oracle Stargate $300B(4.5GW), AMD 6GW(160M주 워런트 $0.01), Broadcom 10GW 커스텀 ASIC ('Titan'), Cerebras 750MW를 동시에 발주하는 "circular financing" 구조 + 워런트 인센티브 정렬을 구사한다. 총 33.75GW 약정. Cerebras는 그 portfolio의 저지연 추론 전용 슬롯(약 2.2%)을 차지했으며, OpenAI에 부여한 Class N 워런트 33.45M주(행사가 $0.00001)는 풀 베스팅 시 OpenAI 지분 약 10%까지 부여한다.
"OpenAI has announced hardware deals with many companies, but today the only two companies who actually run their models and run them in production are Nvidia and Cerebras. Our deal with OpenAI is a committed, take-or-pay $750M contract. It is well north of $20B and began with a $1B prepay. The structure is three tranches: in 2026 there will be 250MW, in 2027 there will be 250MW, and in 2028 there will be 250MW. ... In addition, OpenAI has an option for yet more capacity — 1.25GW. This is truly an enormous deal, one of the largest deals in Silicon Valley history."
Cerebras 락업은 전통적 180일이 아니다. (i) 180일 또는 (ii) Q3 26 결산 발표 +2영업일 중 빠른 시점에서 풀리며, 더 결정적으로 비임원 직원은 Day 1에 보유 주식의 7.5%, Price Trigger(+33%) 달성 시 추가 7.5%가 즉시 해제된다. 중요 — 이 7.5%는 "Class B 전체"가 아니라 "비임원 직원이 보유한 부분"의 7.5%다. S-1/A 본문에 따르면 임원·이사·5%+ stockholders 합산이 38.5% of outstanding (의결권 50.9%)이며, Class B 185.23M주 중 5%+ VC만 합치면 ~79.5M주(42.9%)를 차지한다. 직원 옵션 풀(stock options 28.36M outstanding @ 가중평균 행사가 $4.97 + RSU 11.07M)은 IPO 후 락업이 풀려야 시장 출회 가능. 락업 만료 시점(2026.11.10 추정)에 최대 ~171M주 잠재 매물이 진짜 cliff.
| 단계 | 일자 | 액션 |
|---|---|---|
| 1 | 2026.05.14 Day 1 | 추격 비추 가격만 기록. 1~2% speculation 비중은 허용 가능 |
| 2 | 2026.08 Q2 어닝 | OpenAI 매출 시작·UAE 비중 변화 확인. ramp 모니터링 |
| 3 | 2026.11.10 cliff | Entry Trigger ★ -20~30% 조정 시 $170~200대 분할 매수 |
| 4 | 2027 Q1 (+1y) | OpenAI 본격 ramp 가시화 시 add-on. 매출 $4B 가정 시 P/S 12×로 정상화 |
| 5 | 2027 H2 | $300+ 도달 시 일부 익절, $200 미만 retracement 시 추가 매수. 2029+ Agentic shift 변수 재평가 |
2025.12.24 NVIDIA가 Groq 자산·IP·핵심 인력을 $20B에 흡수(NVDA 사상 최대 거래, Mellanox $7B의 ~3배). 비독점 라이센스 + acquihire 외형으로 규제 회피했고, 2026 GTC에서 Groq 3 LPX를 Vera Rubin 시스템에 통합 발표. Cerebras의 가장 큰 장점이었던 'SRAM 기반 초저지연 토큰 생성'마저 NVDA 생태계 내 컴포넌트로 흡수된 셈이다. 게다가 NVDA Dynamo 1.0(disaggregated inference, KV-aware Smart Router, NIXL)은 Cerebras가 답을 가지지 못한 Agentic inference 영역을 정조준한다.
"Groq did roughly $50M in 2025 at negative margins; we did roughly $500M at around 40% gross margin. We are 12× faster than Groq. The LPU is also an SRAM-based solution, and we agree with some of their architectural decisions, but it has the weakness of being 800 square millimeters. To store the weights of even a mid-sized model, they need thousands of chips. For a big model, we might need four, eight, or twelve chips and have to leave the chip boundary four, eight, or twelve times. They need to do that thousands of times. ... This limitation is not resolved through their acquisition by Nvidia. ... that is a fundamental ceiling on how fast that solution will ever go."
SemiAnalysis(2026.05.13, "Cerebras: Faster Tokens Please")는 WSE-3 / CS-3 시스템을 BOM 단위까지 분해했다. 핵심 시사점: (i) 마케팅에 인용되는 125 PFLOPS는 8:1 sparsity 가정의 sparse 수치이며 실제 dense FP16은 15.625 PFLOPS로 GB300(15 PFLOPS, FP4)과 비교 가능한 수준, (ii) rack당 BOM ~$450k (2025 Q4 메모리 가격 인상 후, 이전 $350k)로 silicon은 TSMC N5 wafer ~$20k에 불과, Vicor VPD + 커스텀 냉각이 더 큰 비중, (iii) 970,000 코어 중 900,000만 활성화하는 yield harvesting + 배치마다 다른 mask set로 ~100% wafer 활용률 달성, (iv) NVL72 표준 1.5 LPM/kW의 3× 수준 (4 LPM/kW) 냉각 인프라 요구.
웨이퍼 한 장을 통째로 칩으로 쓰는 아키텍처는 기존 반도체 제조·패키징·전력·냉각의 모든 가정을 무너뜨린다. Cerebras는 TSMC 5nm 단일 파운드리 + Amkor/TSMC 애리조나 advanced packaging + Vicor 3D 수직 전력 + Nautilus EcoCore 무수(無水) 액침 냉각이라는 네 갈래 종속 구조를 가진다. 어느 한 곳이 막히면 30,000+대 CS-3 생산 계획이 즉시 위태로워진다. 역설적으로 이 종속 구조가 가장 큰 alpha이기도 하다 — NVDA·AMD가 묶여있는 3대 choke point (HBM · CoWoS · TSMC 3nm)를 Cerebras는 셋 다 회피한다.
"산업 tightest 3 spots: memory, HBM, and CoWoS — 우린 셋 다 안 씁니다. 세 번째 tight한 게 TSMC 3nm capacity인데, 우린 3nm 안 쓰고 5nm 씁니다. TSMC가 Cerebras 투자자입니다. ... 우린 hardware 역사상 $1B, $2B, $5B, $10B 매출 도달 가장 빠른 회사가 될 거예요. 제조 capacity 10×/년 가능 (수년간 upper bound)."
창업자 5인 모두 SeaMicro 출신. 2007년 microserver fabric 컨셉으로 창업해 2012년 AMD에 $334M에 매각한 검증된 팀. "여러 칩을 PCB에서 연결할 때 발생하는 전력·지연 문제를 실리콘 위에 나노 단위 배선으로 직접 해결한다"는 Wafer-Scale Engine의 발상은 SeaMicro 시절 그들이 마스터한 네트워크 패브릭 설계의 자연스러운 확장이다. CFO Bob Komin은 2024.9 합류했고 IPO 3회 경험을 갖지만 반도체 경험은 제한적.
최종 공모가 $185 기준 상장 시총 $39.8B / FDV $56.4B. 2025 매출 기준 trailing P/S — 시총 기준 78× / FDV 기준 110×. NVDA(~25×) · AVGO(~20×) · AMD(~10×) 대비 3–11배 프리미엄. 비교 IPO인 CoreWeave(2025.3 IPO @ $40 → 1년 후 $89)와 Astera Labs(2024.3 IPO @ $36 → 첫날 +72%, 현재 ~$120, P/S ~50×)가 reference. 시초가 시나리오와 12개월 전망을 분리해서 본다.
| 시나리오 | 가격 | 시초 수익률 | 시총 (Listed / FDV) | P/S (2025, listed) | 2027E P/S |
|---|---|---|---|---|---|
| 공모가 (FINAL) | $185.00 | — | $39.8B / $56.4B | 78× / 110× | ~26× / 37× |
| 시초 평가절하 | $170–180 | -3% ~ -8% | ~$37B | 73× | ~24× |
| 시초 +20% 안착 | $222 | +20% | ~$48B / $67B | 94× | ~31× |
| 시초 +33% (Trigger 임계) | $246 | +33% | ~$53B / $74B | 104× | ~35× |
| 시초 +50% | $278 | +50% | ~$60B / $85B | 117× | ~39× |
| 시초 +70% (Astera-급) | $315 | +70% | ~$68B / $96B | 133× | ~44× |
| 시초 +100% (drealize melt-up) | $370 | +100% | ~$80B / $113B | 156× | ~52× |
| 12M Target — Bear | $110–130 | -30% ~ -40% | ~$28B | 55× | ~18× |
| 12M Target — Base | $185–240 | 0 ~ +30% | $40–52B | ~85× | ~28× |
| 12M Target — Bull | $280–320 | +50–73% | ~$60–70B | ~125× | ~42× |
24× 초과청약 + 가격 2주 만에 $115 → $185 (+60%) 인상 = Day 1 강한 premium 확정적. ARM(+25%), Astera Labs(+72%), Reddit(+48%), CoreWeave(-10%) 패턴 종합 시 시초 B 시나리오 ($240, +30%)가 modal — 확률 가중 기대값 $245.
9가지 핵심 리스크를 발생 확률(probability) × 잠재 영향(impact) 2축에서 평가했다. 가장 시급한 것은 (1) 락업 만료 매물 압력 (2) UAE 매출 집중 (3) NVDA Dynamo + Groq 흡수로 인한 latency 프리미엄 압축이며, 나머지는 모니터링 대상.
세 개의 게이트를 시간 순서로 통과해야 분할 매수를 시작한다. 각 게이트 미통과 시 다음 게이트까지 보류이며, 3개 모두 통과 시 포트폴리오 5–8% 한도 내 단계적 매수. 페어 운용은 NVDA · AMD · ALAB 숏 또는 인덱스 헷지.
본 부록은 SemiAnalysis "Cerebras — Faster Tokens Please" (Myron Xie · Jordan Nanos · Max Kan · 외 10인, 2026.05.13)의 모든 핵심 디테일을 빠짐없이 정리한다. Dylan Patel이 2021년 6월 Cerebras dedicated article을 쓴 이후 거의 5년 만의 본격 deep dive이며, normal article 4편 분량으로 fast inference / WSE-3 architecture / CS-3 system / BOM 분석 / 한계 / 로드맵 6개 영역을 다룬다. 메인 보고서가 종합 분석 형태인 반면 본 부록은 원문 quote 보존 + 표·카드·인사이트 박스로 1차 자료의 모든 디테일을 보존한다. 한국어 IPO Preview의 핵심 내용은 메인 보고서 본문(Section 02·06·07·08·09·10·11·12·13·15)에 모두 통합 반영되어 본 부록에서는 생략.
SemiAnalysis(Myron Xie · Jordan Nanos · Max Kan, 2026.05.13)는 "Cerebras — Faster Tokens Please"를 발행. Dylan Patel이 2021년 6월 Cerebras dedicated article 작성한 이후 거의 5년 만의 본격 분석.
"It's been nearly 5 years since Dylan wrote a dedicated article about Cerebras in June of 2021. ... How times have changed. ... Up until just 6 months ago, we felt that the Wafer Scale Engine, despite its bold innovations, had some technical weaknesses that were too hard to cover up. Thus, the continued popularity of HBM-based accelerators such as GPU and TPU. The strengths of Cerebras (namely: speed), have been overlooked for years in favor of total throughput. But now, with frontier labs releasing fast, priority, standard and batch tiers of the same model weights, the world has revealed their preference for fast tokens with their wallets. This brings Cerebras's strengths to the fore and is the key reason why OpenAI is willing to fork over tens of billions of dollars for Cerebras compute."
— SemiAnalysis, 2026.05.13
"Fast inference has arrived. While SemiAnalysis has historically been an SRAM machine hater, all this changed when Nvidia licensiquihired Groq in December 2025. Clearly Jensen saw at least $20B of value, and he was proven right just a couple months later when we hit the Claude Code Inflection Point. Now, the wafer is here to stay."
"Many (including Andrej Karpathy) previously believed that raw intelligence/capabilities mattered far more than speed, but our revealed preferences ended up proving that there are times when the opposite is true. Past a certain threshold of intelligence, developers prefer faster tokens to smarter tokens. And in a world where AI is involved in almost every aspect of your workflow, the speed at which tokens are generated can be the bottleneck to 'flow state'."
SemiAnalysis는 Jensen이 GTC 2026에서 강조한 inference의 본질적 트레이드오프를 정식화:
"In our original InferenceX writeup, we described it as a bus vs a Ferrari: you can choose to serve lots of users slowly, a single user quickly, or anything in between. ... Users are also willing to pay more money for higher interactivity, so it's currently unclear exactly which spot along the pareto frontier maximizes overall revenue. ... Fast mode, priority mode, batch pricing, and specific model architectures are all experiments from OpenAI and Anthropic to find the optimal combination."
같은 GPU에서 batch size (concurrency, 동시 서비스하는 user 수)를 조정해 frontier 따라 이동. InferenceX는 3개 input/output sequence length 조합 × top open-source 모델 전체 frontier 측정.
| Interactivity | H100 | GB300 NVL72 | 배수 |
|---|---|---|---|
| 40 tps (낮은 interactivity) | baseline | 20× throughput | 20× |
| 120 tps (높은 interactivity) | baseline | 100× throughput | 100× |
"Alternatively, you can move along the frontier by changing the underlying hardware. This is the promise of SRAM machines like Cerebras and Groq. Their extremely high memory bandwidth allows them to increase throughput at high interactivity, and in the extreme case, achieve interactivity levels that are simply impossible for HBM-based accelerators. Cerebras offers speeds in the thousands of tokens per second, which is literally off the chart compared to the accelerators we benchmark in InferenceMax."
Cerebras의 fundamental bet: reticle limit를 넘어 wafer 전체를 single chip으로. 단일 reticle pattern (mask-based lithography) 최대 858 mm² — Cerebras는 이를 깨고 wafer 전체 사용.
핵심 혁신: silicon과 memory가 하나의 piece of silicon 위에 공존. off-silicon / off-package data movement 제거 → power · latency · cost 절감.
"Traditional" GPU/XPU는 advanced packaging + networking으로 aggregate compute/memory 확보 — power · speed · networking 비용 발생.
"While not a like-for-like comparison, Cerebras compares its on-wafer dataflow speeds to Nvidia's off-package scale-up bandwidth based on the assumption that data can stay on the WSE whereas GPU data needs to move off-package."
| Spec | WSE-3 | 비고 |
|---|---|---|
| Process | TSMC N5 (5nm) | 3nm 미사용 (capacity 여유) |
| 전체 면적 | 46,225 mm² | NVDA B200 package (1,600mm²) 대비 ×29 |
| 트랜지스터 | 4조 (4T) | B200 208B 대비 ×19 |
| 코어 (제조 / 활성) | 970,000 / 900,000 | ~7.2% redundancy |
| on-chip SRAM | 44 GB | Groq LPU per chip 0.5GB 대비 ×88 |
| SRAM BW | 21 PB/s | HBM의 thousands × |
| off-wafer BW | 150 GB/s | 약점 — GPU의 fraction |
"While Cerebras markets a lot of FLOPs for the WSE-3: 125 PFLOPs of FP16 compute, this is a sparse number, not a dense number. This is taking a page out of the Jensen Math playbook but taking it further. Unlike Nvidia, Cerebras doesn't actually state dense FLOPs in public WSE marketing materials. However, Cerebras assumes 8:1 unstructured sparsity in its sparse number, so dense FLOPS is actually 1/8th or 15.6 PFLOPS of FP16 compute throughput. We call this 'Feldman's Formula.' For the CS-2/WSE-2 a 10:1 ratio was assumed — as we see below, the sparse and dense spec is an order of magnitude different."
| Chip | Sparse (marketed) | Dense (actual) | Note |
|---|---|---|---|
| WSE-3 (FP16) | 125 PFLOPS | 15.625 PFLOPS | 8:1 unstructured sparsity (Feldman Formula) |
| WSE-2 (FP16) | ~ | ~ | 10:1 sparsity (더 큰 부풀림) |
| NVDA B300 (FP4 native) | ~ | 13.5 PFLOPS | 2:1 sparsity (Jensen Math) |
| NVDA GB300 (FP4 native) | ~ | 15.0 PFLOPS | |
| NVDA Rubin (FP4 native) | ~ | 35.0 PFLOPS | 2026~2027 출시 예정 |
"The last part is off-wafer networking, which stands as the weakest part of the WSE. In total there is only 150GB/s of bandwidth, a fraction of GPU/XPU competitors who place huge importance on network to scale capability. ... The lack of network bandwidth, while not fatal, is certainly a handicap in the WSE-3 design preventing Cerebras from launching their business to the stratosphere."
네트워킹이 약하면 wafer를 더 묶기 어려움 → 메모리 capacity 추가 확장 어렵고, agentic 워크로드 큰 KV cache · 큰 모델 처리에 약점. "escape hatch of networking more wafers together is also much narrower for Cerebras".
SRAM은 fast이지만 capacity per bit가 비쌈. HBM은 capacity 위주, SRAM은 BW/latency 위주.
| Chip | 메모리 capacity | 메모리 BW | 분류 |
|---|---|---|---|
| WSE-3 | 44 GB SRAM | 21 PB/s | SRAM machine |
| Groq LPU (per chip) | 0.5 GB SRAM | 매우 높음 | SRAM machine |
| B300 (8-stack HBM3E 12-Hi) | 288 GB HBM | ~8 TB/s | HBM-based |
| vs WSE-3 capacity | 6.5× more | — | — |
SemiAnalysis는 Cerebras가 다른 액셀러레이터 스타트업과 달리 진짜 proprietary 하드웨어 기술 보유했다고 평가. The wafer is a bold bet and not easy for incumbents and competitors to replicate.
"For the sake of redundancy, there are a total of 970,000 cores on the WSE, of which 900,000 are enabled. Each core is deliberately made much smaller for the sake of better yield harvesting. However, this is not simple and there is a significant additional cost required. One of the interesting things done is that each batch of wafers will have a custom mask set for the upper metal layers. This is for the purposes of having different wiring for each batch to route around all the defective tiles. The cost of additional masks is a material increase in cost on top of the nominal TSMC wafer cost. Why is this for every batch of wafers? This comes down to intra-batch process variation being lower than across different batches. The net result of this is that wafer-level yield ends up being high. Nearly 100% of the TSMC wafer output is good enough to be assembled into a production server."
핵심 문제: 25 kW를 single 46,225 mm² wafer에서 제거 — 표면 평균 ~50 W/cm²(hotspot 미반영).
Cerebras 시스템의 핵심 sub-assembly:
Cerebras 주요 cooling 파트너 — LiquidStack. Trane Technologies가 2026.3월 인수. LiquidStack과 Cerebras는 처음에 two-phase 솔루션 작업 시작, 이후 L2L single-phase CDU를 CS-3의 flow와 pressure envelope에 맞춰 공동 개발.
| System | Flow rate | LPM/kW | Note |
|---|---|---|---|
| GB200 NVL72 (reference) | — @ — | 1.5 LPM/kW | OCP/Nvidia reference, 대부분 CDU fleet 표준 |
| CS-3 | ~100 LPM @ 25kW | 4 LPM/kW | NVL72의 ~3× |
| CS-4 (목표) | — | 1.5–1.7 LPM/kW | 표준화 수렴 (hyperscaler colocation 확장 가능) |
| System | Inlet temp | Implication |
|---|---|---|
| NVL72 | 45°C (113°F) | Free cooling 가능 (1년 대부분) |
| CS-3 | 21°C (~70°F) | Chiller heavy 인프라 필요 |
Cerebras의 Oklahoma facility는 6,000-ton chiller plant 운영 — 5°C (42°F) chilled water 생산 → heat exchanger로 ~21°C (~70°F)까지 warm → engine block 도달.
"In addition, each CS server has a separate 'KVSS' node. This is a dual socket AMD CPU node with 6TB of DDR5 RDIMM which is used for KVCache offload. ... We estimated the BoM cost of the CS-3 system and the KVSS CPU node to be $350k USD per rack before the memory price hike that started in Q4 last year. Accounting for the latest memory price hike, we have raised the estimate of the BoM of the CS-3 system and the KVSS CPU node to $450k USD per rack."
| BOM 항목 | 추정 비용 | 비고 |
|---|---|---|
| TSMC N5 wafer (single) | ~$20k | nominal cost (silicon 자체) |
| └ 배치별 mask set | 상당 추가 | "material increase" on top of nominal wafer cost |
| Vicor 커스텀 VRM (25kW + VPD) | ~TSMC content와 유사 | 고비용 bespoke VRM |
| 12× 3.3kW PSU | 표준 | commodity |
| 커스텀 cold plate + manifold | 고비용 | 100% custom + co-designed |
| KVSS node (dual AMD CPU + 6TB DDR5) | 메모리價 ↑ | 2025 Q4 메모리 가격 인상 직격 |
| 12× 100GbE Xilinx FPGA NIC | 고정 | NIC 역할 |
| 조립·패키징 | Cerebras 자체 | 외부 contract manufacturer 아님 |
| 총 BOM (메모리價 인상 후) | $450k / rack | 이전 $350k → +28.6% (메모리 hike) |
"To performance engineers, a chip is a tool. Whether you are using 10,000 LPUs, 72 GPUs, or 1 wafer to get the job done, what matters is the 'arithmetic intensity' of the chip — how many FLOPs the chip can perform for every byte it transfers to/from memory (FLOPs/byte)."
AI에서 canonical kernel은 GEMMs (general matrix multiplication). matrix shape에 따라:
SemiAnalysis가 공개 데이터시트(NVDA, Groq, Cerebras)로 작성한 theoretical maximum table 요지:
| Chip | Dense compute | Note |
|---|---|---|
| WSE-3 | 15.625 PFLOPS FP16 | Sparse marketing 125 PF / 8 = dense |
| B300 | 13.5 PFLOPS FP4 | NVDA native FP4 |
| GB300 | 15.0 PFLOPS FP4 | NVDA Blackwell Ultra |
| Rubin | 35.0 PFLOPS FP4 | 다음 세대 NVDA — 2026~2027 출시 |
"With that said, Cerebras is now on the path to being a healthy and rapidly growing business, with its OAI deal being a game-changer: until 2028 Cerebras will need to ship an order of magnitude more servers than they have since inception. The demand surge is already visible in TSMC's wafer loadings, which step up materially each quarter through the year to meet OpenAI's deployment requirements. We expect Cerebras revenue to inflect sharply in the coming years, with OpenAI as the primary growth driver."
"For paid subscribers we also show ... we will talk about Cerebras' future plans of hybrid bonding a wafer scale optical transceiver onto their WSE compute engine, which they claim they are pursuing strictly for the love the game as it is not needed for LLM inference, but is needed for HPC boomer workloads. The HPC customers whom NVIDIA has effectively abandoned after reducing FP64 native hardware on their GPUs to basically nothing."
SemiAnalysis의 종합 평가:
SemiAnalysis는 "the wafer is here to stay"라고 결론. 그러나 CS-4가 표준 cooling envelope으로 수렴해야 hyperscaler colocation 확장 가능. OpenAI deal이 wafer loadings step-up driver. Frontier labs의 가격 차별화 (fast/priority/standard/batch tier)가 SRAM machine의 경제적 정당성을 검증.
SEC 공시
· Cerebras Systems S-1 (2026.4.17), S-1/A (2026.5.4), S-1/A 수정 (2026.5.11)
· FY24·FY25 감사 재무제표, related party 공시 (ASC 850)
· 2025.10 CFIUS 클리어런스 공시
시장 데이터
· Bloomberg, CNBC, Reuters, The Information
· Hiive 사적시장 indicative quotes (2026.5)
· Polymarket IPO odds
· Artificial Analysis 추론 벤치마크
기업 자료
· Cerebras 공식 블로그 (Disaggregated Inference, WSE-3, CS-3 vs B200, vs Groq LPU, Defect Tolerance)
· NVIDIA Vera Rubin developer blog · GTC 2026 keynote
· OpenAI · AWS · Broadcom · TSMC · Amkor · Vicor · Nautilus 발표자료
· NVIDIA FY26 10-K · AMD MI450 launch deck
분석 자료
· SemiAnalysis — "Cerebras: Faster Tokens Please" (2026.05.13) — Throughput-Interactivity frontier, BOM 분석, Feldman's Formula, CS-3 cooling/power
· SemiAnalysis InferenceX Dashboard, Tokenomics Model, Accelerator Model
· SemiAnalysis "Claude Code Inflection Point" — Opus 4.6 Fast 사용 패턴
· SemiAnalysis "Nvidia: The Inference Kingdom Expands" — Dynamo, KV Smart Router
· Morningstar, Futurum Group, TradingKey, Sacra, TechMarketBriefs
· Stanford GSB Case "Cerebras: A Tale of Dreams and Risks"
· arXiv 2503.11698v1 (Cerebras vs Nvidia 비교)
· CNBC, Reuters, Bloomberg, The Information IPO 보도
보조 자료
· 외부 IPO 프리뷰 (블로그 형식 한국어 분석, 2026.05.12) — 100~150 t/s 임계점, G42 Rentback GM 영향, 3-시장 framework, Opus Fast 비교