Semi Doped · 인터뷰/팟캐스트MUST ASSET — 유튜브 매거진

GPU 하나로는 부족하다 — Gimlet Labs의 이종 실리콘 추론 클라우드

추론 워크로드를 잘게 쪼개 GPU·SRAM 가속기·CPU에 자동 분배하는 소프트웨어 플랫폼, 그리고 그 위에 세운 네오클라우드 비즈니스 모델

2025년 5월 12일출연: Natalie (Co-founder, Gimlet Labs) · Baltier (Gimlet Labs) · 진행: Austin (Semi Doped) · 테마: 이종 실리콘 / 추론 최적화 / 네오클라우드 / 에이전트 인프라

3줄 요약

LLM 추론은 prefill·decode·speculative decode·tool call 등 구성 요소마다 요구하는 하드웨어 특성이 다르며, 이를 자동으로 분해해 최적 실리콘에 배치하는 소프트웨어 오케스트레이션 레이어가 Gimlet의 핵심 기술.
D-Matrix Corsair(SRAM 기반)를 Nvidia B200과 동일 랙에 직접 연결, spec decode 모델(1.6B)을 Corsair로 오프로드하자 GPU 단독 대비 인터랙티비티·throughput 모두 약 4배 개선되는 Pareto 곡선 이동 확인.
타 네오클라우드 대부분이 단일 벤더에 지분까지 묶인 반면, Gimlet은 벤더 무관 공급망 다변화 + 풀스택 SW 플랫폼으로 마진 구조 차별화, Series A 완료 후 연내 3~4배 인원 확장 중.

한눈에 — 다룬 종목·테마

종목/테마	발언자	톤	핵심 한 줄
이종 실리콘 추론	Natalie	Bullish	단일 칩으로 모든 추론 단계를 최적화하는 건 물리적으로 불가능
D-Matrix Corsair	Natalie · Baltier	Bullish	SRAM 기반 decode 전용 칩, B200과 동일 랙 연결 시 4배 Pareto 개선
Sovereign 클라우드	Baltier	Bullish	공급망 다변화 수요 + SW 부담 해소, 유럽·중동·인도·아시아·한국 모두 해당
프론티어 랩 / 하이퍼스케일러	Baltier	중립	일부는 자체 구축 중, 일부는 아웃소싱 검토 — capex 마진 압박이 촉진제
AI 네이티브 (11Labs·Notion·Glean·Harvey 등)	Baltier · Natalie	Bullish	레이턴시 예산 1초 이하 요구, 이종 스택으로 새로운 UX 잠금 해제 가능
네오클라우드 비즈니스 모델	Baltier	Bullish	벤더 종속 없는 공급망 다변화로 원가 구조 차별화, SW 플랫폼과 양립

이종 실리콘 추론 아키텍처Bullish

"하나의 칩이 모든 단계를 최적으로 처리하는 건 물리적으로 불가능하다"

Natalie (Co-founder) · 추론 워크로드 구조 분해 ·

💡 핵심 통찰

LLM 추론은 겉보기엔 단일 워크로드지만 사실 prefill, decode, speculative decode, tool call, 데이터 처리 등 병목 자원(메모리 대역폭 vs. 연산 집약도 vs. 레이턴시)이 완전히 다른 단계들의 집합이다. 트릴리언 달러짜리 CAPEX가 쏟아지는 지금, 이 차이를 무시하고 GPU 하나로 전부 돌리는 건 낭비다. Gimlet은 이 워크로드를 그래프로 추적·분해해 각 조각을 최적 실리콘에 자동 배치하는 소프트웨어 오케스트레이션 레이어를 핵심으로 삼는다.

왜 지금인가: 매일같이 Traxion·AMD·TPU·Nvidia와의 컴퓨트 계약 뉴스가 나오고, 새로운 추론 전용 가속기 회사가 등장한다. 이를 "GPU 킬러 vs. GPU" 구도로 보는 시각이 많지만, Gimlet은 모든 옵션이 서로 다른 용도에 최적이라는 시각으로 접근한다. 문제는 어떤 칩이 이길 것이냐가 아니라, 어떻게 올바른 칩에 올바른 작업을 보내느냐다.

워크로드 분해 방법론: PyTorch 등의 모델을 입력받아 트레이싱 → 그래프 표현으로 변환 → 오케스트레이터·스케줄러가 최적 분할점 결정 → 각 세그먼트를 타깃 하드웨어용으로 컴파일(예: Nvidia는 TensorRT, 타 벤더는 해당 프레임워크). "모든 칩을 위한 프로그래밍 언어를 새로 만드는 게 아니라, 각 하드웨어 파트너의 기존 저수준 프레임워크를 적극 활용한다"는 게 Natalie의 설명.

에이전트가 문제를 더 복잡하게 만든다: 단순 LLM 채팅보다 멀티스텝 코딩 에이전트, 멀티모달 백그라운드 에이전트는 훨씬 이종적(heterogeneous)이다. 모델 간 통신, tool call, 검색, 로컬 실행이 뒤섞이면 동질적(homogeneous) 스택의 비효율은 "완전히 감당 불가(untenable)" 수준이 된다고 Natalie는 강조했다.

CPU의 역할: tool call을 사용자 랩톱이 아닌 서버 사이드에서 실행하면 LLM 서버 ↔ 랩톱 간 네트워크 왕복이 제거돼 에이전트 end-to-end 레이턴시가 크게 줄어든다. 이를 위해 GPU·SRAM 가속기·CPU를 모두 고속 패브릭으로 동일 데이터 센터 내에 연결하는 것이 Gimlet의 물리적 아키텍처다.

"우리는 지금껏 누구도 연결해본 적 없는 칩들을 연결하고 있다. 벤더 A와 벤더 B의 칩을 꽂아서 단일 워크로드를 가로질러 오케스트레이션한 사람이 아직 없었기 때문이다."

쉽게 풀어보기 — 추론 워크로드 분해

Prefill: 사용자가 입력한 긴 컨텍스트를 한꺼번에 처리하는 단계. 연산 집약적(compute-bound).
Decode: 토큰을 하나씩 생성하는 단계. 메모리 대역폭 집약적(memory-bound).
Speculative Decode: 작은 모델이 다음 토큰 여러 개를 먼저 추측하고, 큰 모델이 한번에 검증하는 방식. 검증이 생성보다 훨씬 빠르다는 점을 이용.
SRAM 기반 가속기: HBM(고대역폭 메모리) 대신 온칩 SRAM에 가중치를 올려 극저지연 decode에 특화된 칩 구조.
Pareto 프론티어: throughput(처리량)과 interactivity(응답 속도)를 동시에 최대화할 수 없는 트레이드오프 곡선. 이 곡선 자체를 위로 밀어올리는 것이 목표.

D-Matrix Corsair × Nvidia B200Bullish

SRAM 카드 하나 추가로 Pareto 곡선이 통째로 올라갔다 — 실험 결과 공개

Natalie · Baltier · D-Matrix 파트너십 ·

💡 핵심 통찰

GPT OSS 120B 모델(8K 입력, 1K 출력) 워크로드 기준, Nvidia B200 + D-Matrix Corsair 혼합 랙에서 speculative decode의 draft 모델(1.6B)을 Corsair로 오프로드하자, GPU 단독 speculative decode 대비 약 4배의 인터랙티비티 또는 throughput 개선이 확인됐다. 이미 최적화된 파란 선(GPU spec decode) 위에서도 "극적인" 추가 이동이 나타났다고 Natalie가 직접 표현.

테스트 모델

GPT OSS 120B 8K in / 1K out

Draft 모델 크기

1.6B Corsair 온칩 SRAM 탑재

Pareto 개선

~4× throughput 또는 interactivity 기준

비교 베이스라인

GPU-only spec decode (이미 PD disagg 대비 유의미한 개선)

실험 설정: Gimlet 자체 데이터 센터에 D-Matrix Corsair 카드와 Nvidia B200을 동일 랙에 직접 연결했다. 세 가지 구성을 비교했다: ① GPU 전통적 PD disaggregation(초록), ② GPU 전용 speculative decode(파랑), ③ B200 + Corsair 혼합 speculative decode(세 번째 선).

왜 Corsair가 spec decode에 맞는가: Speculative decode의 draft 단계는 모델 가중치를 초고속으로 반복 접근하는 구조라 온칩 SRAM이 충분하면 HBM 대역폭 병목 없이 처리 가능. Corsair의 대용량 온칩 SRAM이 바로 이 특성을 활용.

고객 관점 해석: "토큰을 4배 빠르게 줄 것인가, 아니면 동일 레이턴시에서 2~3배 더 많은 고객을 서비스할 것인가" — 어느 축으로 이익을 쓸지는 고객이 선택할 수 있다고 Natalie는 정리했다. 특히 verify stage를 5토큰에서 20토큰으로 늘리면 개선 폭이 더 커진다는 슬라이드도 언급됨.

D-Matrix 외 파트너: Baltier에 따르면 D-Matrix는 현재 공개적으로 이름을 말할 수 있는 파트너 중 하나일 뿐이며, 복수의 SRAM 기반 아키텍처와 파트너십을 진행 중.

"power 제약이 있는 세상에서, 이종 하드웨어로 Pareto 프론티어 자체를 이동시키면 고객에게 레이턴시 감소·throughput 향상·비용 절감을 동시에 줄 수 있다. 단순히 더 좋아지는 게 아니라 기존엔 불가능했던 제품 경험이 열린다."

고객 세그먼트중립

Sovereign · 프론티어 랩 · AI 네이티브 — 각자 다른 이유로 Gimlet이 필요하다

Baltier · 비즈니스 전략 ·

💡 핵심 통찰

세 고객군 모두 공통적으로 "소프트웨어 부담 없이 이종 하드웨어의 이점을 취하고 싶다"는 욕구를 공유하지만, 그 동기는 각기 다르다. Sovereign은 공급망 다변화, 프론티어 랩은 capex 아웃소싱과 실험 가속, AI 네이티브는 레이턴시 예산 돌파가 핵심 니즈다.

① Sovereign 클라우드: 유럽·중동·인도·아시아·한국 등 정부 자금을 받아 자체 데이터 센터를 구축 중인 국가 클라우드들. Nvidia + AMD만으로는 공급망 다변화가 충분치 않고, 한국처럼 자국 칩 생태계가 있는 경우 그 칩을 활용하고 싶어도 커널 엔지니어링 부담이 크다. Gimlet은 기존 데이터 센터에 소프트웨어 플랫폼을 배포해 time-to-market + throughput + UX 개선을 패키지로 제공.

② 프론티어 랩 / 하이퍼스케일러: Meta 등 대형 사업자는 이미 Nvidia·AMD·자체 칩을 운용하지만, 3년 전에는 지금 수준의 추론 워크로드 분해를 논의하지도 않았다. PD disaggregation은 "박사 논문 수준의 구현"이었다. 지금은 훨씬 복잡한 분해가 요구됨. 일부는 자체 개발 중이지만, Gimlet과 협력 중인 프론티어 랩들은 "이 인프라가 우리 핵심 역량이 아니다, 실험만 빨리 하고 싶다"는 입장. CAPEX 투자가 늘수록 마진이 얇아지는 구조라 아웃소싱 유인도 커짐.

③ AI 네이티브 (11Labs·Notion·Glean·Harvey 등): 두 유형으로 나뉜다. 하나는 토큰 비용이 마진을 잠식할 만큼 규모가 커진 기업(비용 민감), 다른 하나는 diffusion·voice·video 기반 서비스로 레이턴시 1초 이하가 경쟁력의 핵심인 신흥 혁신가들. Natalie의 설명에 따르면, 토큰 속도가 3~5배 빨라지면 단순히 "더 빠른 것"이 아니라 기존엔 불가능했던 신규 제품 경험이 열린다. 특히 voice agent는 레이턴시 예산이 매우 좁아 이종 스택의 수혜가 크다.

Gimlet 비즈니스 모델 · 경쟁 포지셔닝Bullish

CoreWeave도 Together AI도 아니다 — 벤더 무관 풀스택 클라우드

Baltier · Natalie · 비즈니스 모델 ·

💡 핵심 통찰

대부분의 네오클라우드는 특정 실리콘 벤더에 지분까지 넘기며 종속된 구조라, 공급망 다변화가 구조적으로 어렵다. 하드웨어 상각이 연간 비용의 약 70%를 차지하는 상황에서 벤더 락인은 가격 경쟁력을 갉아먹는다. Gimlet은 벤더 무관 공급망 + SW 플랫폼 수익이라는 두 축으로 원가 구조와 상단 매출 모두를 방어한다.

경쟁사 원가 구조

~70% 하드웨어 상각 (연간 비용 대비)

자금 상태

Series A 완료 2025년 3월 발표

연내 채용 목표

3~4배 확장 엔지니어링 중심

경쟁자 지형 분석 (Baltier): 네오클라우드는 크게 두 유형으로 나뉜다. CoreWeave형 — GPU·데이터 센터 구매 후 bare metal as a service로 제공, 풀스택 경험 부재, M&A로 해결 시도 중이나 통합이 어려움. Together AI·Fireworks형 — 소프트웨어 중심이나 보통 단일 벤더 인프라에서 용량 조달. Gimlet은 둘 다 아님. 자체 네오클라우드(토큰 판매)와 엔터프라이즈 SW 플랫폼(고객 데이터 센터 배포) 두 모델을 병행하며, 한쪽이 다른 쪽의 CAPEX를 교차 지원하는 구조.

왜 다른 네오클라우드가 따라오기 어려운가: 벤더 한 곳과 심층 파트너십을 맺는 것도 이미 어렵다. 여러 벤더와 동시에 맺고, 워크로드를 분해해 모두에 최적화하는 것은 그 위에 몇 단계가 더 있다. 또한 추론 가격이 계속 내려가면서 동질적 스택은 top-line 방어 수단이 없어지는 반면, Gimlet은 차별화된 토큰 성능으로 프리미엄 가격을 유지할 수 있다고 Baltier는 설명.

채용 현황: 스탠퍼드(산호세) 오피스 기반, 오프라인 근무. 스케줄러·컴파일러·분산 시스템 모니터링·커널 최적화·AI 기반 자동화 등 하이퍼포먼스 AI 시스템 전반 채용 중. "제품-시장 적합성은 이미 증명됐고, 공급망 문제는 우리에게 가장 작은 문제다. 지금 가장 큰 문제는 실행할 사람"이라고 Baltier는 밝혔다.