Semi Doped · 팟캐스트MUST ASSET — 유튜브 매거진

웨이퍼가 곧 칩이다 — Cerebras IPO 해부

55억 달러를 들고 상장한 '저녁 접시 크기' AI 가속기, 기술적 경이로움과 비즈니스 현실 사이

3줄 요약

  1. Cerebras는 $185/주, 55억 달러 규모로 IPO — 초기 목표(35~40억) 대비 15억 달러 초과, 초과 청약·eBay식 경매 방식·ARM·소프트뱅크 막판 인수 시도까지 이슈 속출.
  2. 웨이퍼 스케일 엔진(WSE)은 44GB SRAM·21 PB/s 메모리 대역폭으로 GPU 대비 압도적인 추론 속도를 내지만, 모델이 44GB를 초과하면 오프웨이퍼 IO 병목이 발생해 핵심 강점이 희석됨.
  3. OpenAI 계약은 하드웨어 판매가 아닌 토큰 구매 방식으로 Cerebras가 제조·데이터센터·클라우드 운영을 모두 담당 — 고객 집중도와 운영 복잡성이 핵심 리스크.
한눈에 — 다룬 종목·테마
종목/테마발언자핵심 한 줄
Cerebras IPOAustin · VicBullish55억 달러 조달, 역대급 초과 청약으로 상장 성공
WSE 기술VicBullish44GB SRAM·23kW 전력·독자 냉각, 기술적으로는 경이로운 성취
WSE 한계Austin · VicBearish44GB 초과 모델은 오프칩 병목 — 프론티어 모델 전부 해당
OpenAI 딜Vic중립토큰 구매 계약 — 하드웨어 판매 아님, 고객 집중·운영 복잡성 우려
추론 가속 경쟁Austin · Vic중립Grok(Nvidia), SambaNova, Tenstorrent, Maddox 등 난립 — 승자 미결
Trilogy Systems 교훈VicBearish1980년대 Gene Amdahl의 웨이퍼 스케일 실패 — 먼지, 홍수, 자금 소진
Cerebras IPOBullish

목표보다 15억 달러 더 — eBay 경매 방식 IPO, ARM·소프트뱅크 인수 시도까지

Austin Lines · Vic Shaker · IPO 당일 아침 · 관련: 소프트뱅크, ARM
💡 핵심 통찰

Cerebras는 이번 IPO에서 eBay식 최고가 경매(Dutch auction 변형) 방식을 채택해 투자자들이 '원하는 수량·최대 가격'을 직접 입력하게 했다. 최종 공모가 $185는 초기 예상($135)을 크게 웃돌았고, 총 조달액 55억 달러는 당초 목표(35~40억)보다 약 15억 달러 많다.

공모가
$185/주
조달 규모
$5.5B(당초 목표 $3.5~4B)
초기 공모가 예상
$135→ $150~160 → $185

무슨 일이 있었나: IPO 당일 아침, 공모가는 $185에 고정된 채 거의 움직이지 않았다. 주 단위로 공모가가 계속 올랐고 최종 확정까지 여러 차례 상향 조정이 있었다.

ARM·소프트뱅크 막판 인수 시도: Bloomberg 보도에 따르면 ARM과 소프트뱅크가 마감 직전 "eBay 스나이핑"처럼 막판 인수 시도를 했으나 성사되지 않았다. Vic은 이를 "성사되지 않은 eBay 스나이프"라고 표현했다.

축하와 우려 사이: 팀·벤처 투자자들에게는 분명한 성과지만, 진짜 논의는 지금부터다 — 비즈니스 모델이 탄탄한가, 스케일 가능한가.

"IPO에 지분을 가진 팀과 VC 모두에게 축하를. 그리고 이제 진짜 얘기를 해보자."
Cerebras WSE (웨이퍼 스케일 엔진)Bullish — 기술

저녁 접시 하나가 GPU 84개 — 전력·냉각·열팽창까지 새로 설계

Vic Shaker (주도) · Austin Lines · 관련: TSMC, SRAM, HBM
💡 핵심 통찰

Cerebras WSE의 핵심 아이디어는 단순하다 — 웨이퍼를 자르지 말고 그냥 다 연결하자. 그러나 실행은 극도로 복잡하다. 전력 공급·냉각·열팽창 계수 차이를 모두 처음부터 새로 설계해야 했고, 이 모든 것이 Cerebras만의 독자 특허로 해결됐다.

SRAM 용량
44 GB온웨이퍼
메모리 대역폭
21 PB/s(페타바이트/초)
레티클 수
84개격자 연결
코어 수
~970,000개활성 ~900,000
소비 전력
23 kW/웨이퍼
열팽창
~0.1 mmPCB와 팽창률 불일치 문제

왜 잘라내지 않나: 일반적으로 TSMC에서 웨이퍼를 만들면 다이(die)를 잘라내 패키징하고 출하한다. Nvidia도 이 방식. Cerebras는 "왜 잘라내지? 그냥 다 금속선으로 연결하면 되잖아"라는 발상에서 출발했다.

결함(Defect) 문제 해결: 웨이퍼는 항상 결함이 있다. 대형 다이 하나짜리 칩이면 그 결함 하나가 치명적이지만, Cerebras는 코어를 GPU 크기의 1/100~1/120으로 쪼갰다. 백만 개 가까운 초소형 코어 중 결함 있는 것은 온웨이퍼 라우팅 패브릭으로 우회한다 — "row 10, column 13 죽었네, 옆 코어로 돌려" 방식이다.

전력 공급 혁신: 1V 공급으로 23kW를 감당하려면 수만 암페어의 전류가 필요하다. 웨이퍼 한 쪽에서 다른 쪽으로 전류를 흘리면 전압 강하가 심하기 때문에, 수백 개의 수직 전력 커넥터가 웨이퍼 전면에 걸쳐 분산 공급하는 구조를 채택했다.

냉각 — "엔진 블록": 전체 웨이퍼를 동시에 냉각해야 한다. Cerebras는 마이크로유체 채널이 내장된 대형 금속 구조물 "엔진 블록"을 직접 설계했다. 웨이퍼 사이트에서 사진을 보면 그 복잡성을 실감할 수 있다.

열팽창 계수 문제: 웨이퍼가 가열되면 약 0.1mm 팽창하는데, 연결된 PCB는 팽창률이 다르다. 커넥터가 뜯어질 수 있다. Cerebras는 독자 소재와 특허를 통해 이를 해결했다. "이건 업계 공통 문제가 아니라 오직 Cerebras만의 문제였다"고 Vic은 강조했다.

"각 웨이퍼가 약 23kW를 소비해. 1V 공급이라면 수만 암페어가 단일 웨이퍼로 흘러들어야 하는 거야. 엄청난 거지."
쉽게 풀어보기 — 웨이퍼 스케일 엔진 핵심 용어
레티클(Reticle)
반도체 노광 장비가 한 번에 패터닝할 수 있는 최대 면적. 일반 GPU 칩 하나가 대략 이 크기. Cerebras WSE는 84개를 이어 붙였다.
SRAM vs HBM
SRAM은 트랜지스터 6개로 1비트를 저장 — 빠르지만 면적이 크다. HBM은 DRAM 기반으로 고대역폭을 구현. Cerebras는 웨이퍼 전체를 SRAM으로 채워 메모리 병목을 원천 차단했다.
결함 우회(Defect Routing)
웨이퍼를 처음 켤 때 전체 코어를 테스트해 불량 코어를 지도에 표시하고, 이후 소프트웨어가 해당 위치를 자동으로 건너뛰며 작업을 할당한다.
열팽창 계수(CTE, Coefficient of Thermal Expansion)
온도 상승 시 재료가 늘어나는 비율. 실리콘과 PCB의 CTE가 달라 연결부가 파손될 수 있다.
WSE 한계 — 메모리 & 스케일Bearish

44GB의 함정 — 프론티어 모델은 한 웨이퍼에 안 들어간다

Austin Lines · Vic Shaker · 관련: Llama 70B, KV Cache, 파이프라인/텐서/전문가 병렬화
💡 핵심 통찰

모든 것이 44GB 안에 들어오면 Cerebras는 GPU가 꿈도 못 꾸는 토큰/초 속도를 낸다. 하지만 Llama 70B조차 양자화 방법에 따라 44GB를 초과할 수 있고, KV 캐시·액티베이션까지 합산하면 실질적으로 여러 웨이퍼를 써야 한다. 웨이퍼 간 통신은 웨이퍼 내부 대역폭과 비교해 압도적으로 느리다 — 이것이 WSE 핵심 강점을 정면으로 훼손한다.

44GB 벽: 온웨이퍼 SRAM 44GB는 소형 모델엔 충분하지만 최신 프론티어 모델들은 훨씬 크다. 단일 웨이퍼 추론이 불가능해지면 모델을 여러 웨이퍼에 분산해야 한다.

오프웨이퍼 병목: 웨이퍼 경계를 넘어가는 순간 네트워킹이 개입하고 속도가 급격히 떨어진다. "오프웨이퍼로 나가는 순간 병목이 발생한다 — 그게 문제의 전부다"라고 Vic은 단언했다.

병렬화 방법들: 파이프라인 병렬화(웨이퍼별 레이어 분할), 텐서 병렬화(행렬을 쪼개 분산), 전문가(Expert) 병렬화 등 다양한 방법이 있지만, 결국 웨이퍼 간 통신이 필요하다는 점에서 WSE의 근본 철학과 충돌한다.

스케일업 가능성 탐색: Semi Analysis 보도에 따르면 Cerebras는 포토닉 웨이퍼를 얹어 Z축 방향으로 데이터를 라우팅하는 2.5D 인터커넥트도 실험 중인 것으로 알려졌다. DRAM/SRAM 웨이퍼 스택 아이디어도 거론되지만, "이미 충분히 어려운 문제를 더 어렵게 만드는 것"이라는 회의적 시선도 있다.

유용한 유스케이스: 소형 모델 + 극한의 저지연이 필요한 경우 — 금융 거래, 실시간 광고 재작성, 코딩 에이전트, 음성 번역 등. 에이전틱 워크플로우에서 지연이 10초 → 1초로 줄어들면 체이닝 시 복리 효과가 생긴다는 점도 언급됐다.

"44GB 안에 모델이 들어오면 GPU로는 꿈도 못 꾸는 토큰/초를 낼 수 있어. 근데 지금 시대의 프론티어 모델은 전부 거기서 벗어나 있지."
OpenAI 딜 · 비즈니스 모델중립

하드웨어를 파는 게 아니다 — 토큰을 파는 회사가 됐다

Vic Shaker · Austin Lines · 관련: OpenAI, 네오클라우드, Microsoft Azure
💡 핵심 통찰

OpenAI와의 계약은 "하드웨어 판매"가 아닌 "토큰 구매"다. Cerebras가 제조·데이터센터 구축·클라우드 운영까지 모두 책임지고, OpenAI는 사용한 토큰만큼 돈을 낸다. 칩 설계·제조라는 가장 어려운 일을 하면서 동시에 Microsoft Azure 수준의 클라우드 운영 역량도 갖춰야 한다는 뜻이다.

이전 IPO 시도와의 차이: 예전에 Cerebras가 IPO를 시도했을 때는 OpenAI 관계가 없었다. 당시에는 주권 펀드(국부펀드) 투자자 겸 클라우드 바이어만 있었는데, 이것만으로는 실제 제품-시장 적합성(PMF)을 증명하기 어려웠다. OpenAI라는 앵커 고객이 생긴 것이 이번 IPO 타이밍의 핵심.

그러나 고객 집중도: 반대로 OpenAI 한 곳에 매출이 크게 쏠려 있다는 리스크가 생겼다. OpenAI가 방향을 바꾸거나 Nvidia 솔루션으로 옮겨가면 타격이 크다.

운영 복잡성: "왜 칩 회사가 네오클라우드까지 해야 하나"라는 의문이 나온다. Vic은 "만약 Microsoft가 Cerebras를 인수했다면 Microsoft는 클라우드 운영을 맡고 Cerebras는 WSE 5 개발에만 집중할 수 있었을 것"이라고 아이러니를 짚었다.

공급망 스케일 리스크: 엔진 블록 등 Cerebras만을 위해 공동 개발한 부품들은 대규모 공급망 구축이 안 돼 있다. OpenAI 규모의 수요를 받았을 때 실제로 공급이 가능한지는 미지수 — "수요는 있는데 생산이 못 따라가는" 리스크.

"OpenAI는 'Cerebras 웨이퍼 스케일 엔진으로 데이터센터 지어줘'가 아니야. 그냥 '토큰 팔아줘'라고 한 거거든. 그 차이가 엄청나게 크지."
Trilogy Systems — 역사적 전례역사적 실패

1983년의 IPO와 제로 수렴 — Gene Amdahl이 먼저 실패했다

Vic Shaker · 관련: Gene Amdahl, Amdahl's Law
💡 핵심 통찰

Cerebras가 오늘 성취한 것을 40년 전 Gene Amdahl이 시도했다. 당시 수억 달러를 태우고 결국 실패했는데, 이유는 기술 문제만이 아니었다 — 홍수, 녹슨 파이프가 클린룸에 먼지를 뿌렸고, 재정 담당자는 뇌종양으로 사망했으며, Amdahl은 롤스로이스를 박살냈다. 기술·자연재해·인재가 한꺼번에 덮쳤다.

Trilogy 조달 자금
~$230M(현재 가치 ~$1B)
1983년 IPO 조달
$60M제품 없이
IPO 당시 주가
$12→ 이후 거의 $0
웨이퍼 크기
2.5인치(현 Cerebras: 12인치)

Trilogy Systems 요약: 1980년대 초 Gene Amdahl(암달의 법칙 그 Amdahl 맞다)이 설립. 웨이퍼 전체를 하나의 칩으로 쓰겠다는 발상은 Cerebras와 동일. 결함 우회 아이디어도 같았다.

왜 실패했나: 1980년대 반도체 수율이 너무 낮았다. 2.5인치짜리 소형 웨이퍼도 수율이 너무 나빠 작동하는 칩을 못 만들었다. 거기에 폭풍으로 공장이 침수 → 에어컨 파이프 부식 → 클린룸에 먼지 살포 → 수개월간 원인 불명 수율 폭락. 3,300만 달러짜리 공장을 날렸다.

IPO 후 주가 제로 수렴: 1983년 제품도 없이 $60M IPO 후, 공개 시장의 인내심이 끊기며 주가는 $12에서 사실상 0으로 수렴. 재정 담당자(Clifford Madden으로 기록)는 뇌종양으로 사망. Amdahl은 1989년 경영에서 물러나며 "웨이퍼 스케일 엔진은 앞으로 100년 안에 불가능하다"고 선언했다.

실제로는 40년 후: Amdahl의 100년 예언을 40년 만에 Cerebras가 깼다. 현대의 TSMC 제조 정밀도, 소프트웨어 결함 우회, 새로운 전력·냉각 설계 덕분이다. "순수 기술 관점에서 Cerebras가 해낸 건 정말 대단하다"는 게 두 사람의 공통 평가.

"그는 '앞으로 100년 안에는 못 한다'고 했는데, 40년 만에 됐네."
AI 추론 가속 경쟁중립

야생의 서부 — 지금이 기회의 창, 하지만 경쟁자는 넘쳐난다

Austin Lines · Vic Shaker · 관련: $NVDA, Groq, SambaNova, Tenstorrent, Maddox, Fractal, Dmatrix, Etched
💡 핵심 통찰

Groq(현재 Nvidia 소속)과 Cerebras는 LLM 이전에 설계됐지만 "오래 살아남아서 딱 맞는 시기에 있게 된" 행운아. 반면 LLM 이후 설계된 신흥 플레이어들(Maddox, Tenstorrent, Fractal, Dmatrix, Etched 등)이 쏟아지고 있고, 아직 대규모 구매는 불가능하다. "살 수 있는 최고의 가속기가 최고의 가속기"라는 냉정한 현실.

Groq 비교: Nvidia의 Groq 인수는 저지연 추론 포트폴리오를 위한 포석. LPU는 소형 SRAM(수백 MB 수준)을 탑재한 작은 칩들을 연결하는 방식으로, Cerebras WSE보다 제조·공급망 복잡성이 낮다. Nvidia는 CUDA 생태계·컴파일러·나머지 플랫폼과 통합할 수 있다는 강점.

Cerebras vs Groq의 공통점: 둘 다 LLM 이전 설계 → 당시에는 잘못된 트레이드오프를 할 수밖에 없었음 → 그러나 disaggregated inference(프리필·디코드 분리), 오픈 모델 확산, Nvidia의 Dynamo 등이 맞물리며 "지금이 기회의 창"이 됐다.

신흥 경쟁자: SambaNova, Maddox, Tenstorrent, Fractal(최근 $220M 조달), Dmatrix, Etched 등 다수. 아직 대규모 구매는 어렵지만 이들이 시장에 본격 진입하면 Cerebras·Groq의 "유일한 옵션" 지위가 흔들릴 수 있다.

장기 전망: 10년 후를 돌아보면 "온갖 아이디어가 다 나왔던 시대"로 기억될 것. 어떤 아키텍처가 살아남을지, 가치가 하드웨어에 귀속될지 소프트웨어 추상화 레이어에 귀속될지(특정 하드웨어에 무관하게 워크로드를 최적 분배하는 오케스트레이션 레이어)가 관건.

"10년 후엔 이렇게 말할 거야. '웨이퍼 스케일 엔진 하는 회사도 있었고, LLM을 칩에 하드코딩한다는 회사도 있었고… 도대체 뭘 생각하고 있었던 거야?' 라고."