Altimeter Capital · 인터뷰/대담MUST ASSET — 유튜브 매거진

추론 비용 2.5년 만에 99% 붕괴했는데, H100 가격은 왜 오르나

AI 인퍼런스 단가 급락의 드라이버와 그 역설 — 칩·모델·수요가 동시에 폭주하는 3차원 방정식

3줄 요약

  1. AI 인퍼런스 단가는 지난 1년 ~90%, 2.5년 누적 ~99% 하락했고 이 추세는 당분간 지속된다.
  2. 비용 절감은 TSMC 공급망·리소그래피·칩 설계 혁신(대형 패키지, 양자화 등)이 이끌고 있으나, 리소그래피는 물리적 한계에 근접 — 무어의 법칙 이후 시대에 접어들었다.
  3. 문제는 모델 파라미터가 1조~10조 수준으로 폭증하고 수요도 동반 급증해, 50배 혁신을 해도 수요가 더 빨리 자라 $NVDA H100 현물 가격은 오히려 상승 중이다.
한눈에 — 다룬 종목·테마
종목/테마발언자핵심 한 줄
AI 인퍼런스 비용칩 업계 관계자Bullish2.5년 99% 하락, 단가 하락 추세 지속 전망
TSMC · 반도체 공급망칩 업계 관계자중립리소그래피 한계 도달, 대형 패키지로 돌파 시도
Cerebras칩 업계 관계자Bullish피자 박스 크기 칩 — 거대 패키지 설계의 최전선
모델 파라미터 인플레이션칩 업계 관계자Bearish1조~10조 파라미터 모델 등장, 컴퓨트 수요 재폭발
$NVDA H100 가격칩 업계 관계자Bearish단가 하락에도 현물 임대가는 역설적으로 상승 중
AI 인퍼런스 비용Bullish — 단가 하락 추세

"지능 한 단위"의 가격, 2.5년 만에 100분의 1이 됐다

칩 업계 관계자 (Altimeter Capital 대담) · 인퍼런스 비용 구조 분석
💡 핵심 통찰

단순 질의든 복잡한 추론이든 "지능의 단위 비용"은 계속 내려가고 있다. 1년 만에 약 90%, 2~2.5년 누적으로는 약 99% 하락. 이 추세를 만드는 세 가지 레버는 ① 공급망(주로 TSMC), ② 엔지니어링 혁신, ③ 전력/전기 효율이다.

인퍼런스 단가 하락 (1년)
~90% 감소
인퍼런스 단가 하락 (2~2.5년)
~99% 누적 감소

무슨 얘기였나: 인터뷰어가 "같은 수준의 질문(like-for-like 인텔리전스 단위)을 처리하는 비용이 계속 내려갈 것이냐"고 묻자, 발언자는 세 가지 핵심 투입 요소를 들어 "그렇다"고 답했다.

세 가지 레버: ① 반도체 공급망(TSMC 중심의 리소그래피·패키징 기술), ② 엔지니어링 혁신(회로 설계·양자화 등), ③ 가용 전력량. 이 세 요소가 함께 움직여야 단가가 내려간다.

"단순한 질문이든 조금 더 복잡한 질문이든, 그 지능의 단위 비용이 계속 내려갈 것인지 — 그리고 그 이유가 무엇인지 얘기해달라."
쉽게 풀어보기 — 인퍼런스 비용이란
인퍼런스(Inference)
AI 모델이 학습을 마친 뒤, 실제 사용자 질문에 답을 생성하는 과정. 학습(Training)과 구분되며, 서비스 운영 비용의 핵심이다.
토큰(Token)
AI가 텍스트를 처리하는 기본 단위. 대략 단어 하나~단어 몇 개 수준. 인퍼런스 비용은 보통 "토큰 1,000개당 얼마"로 측정한다.
TSMC · 반도체 공급망중립 — 한계와 혁신의 경계

무어의 법칙은 끝났다 — 이제는 "더 큰 칩"으로 돌파한다

칩 업계 관계자 · 리소그래피·패키징 기술 논의 · 관련: Cerebras, TSMC
💡 핵심 통찰

리소그래피는 물리적 한계에 근접했다. 예전처럼 공정 미세화만으로 성능을 높이는 시대는 끝났고, 업계는 칩 자체를 더 크게 만드는 방향으로 전환 중이다. Cerebras의 웨이퍼 스케일 칩(피자 박스 크기)이 그 극단적 사례.

무슨 얘기였나: 발언자는 "리소그래피 기술이 한계에 다가오고 있고, 예전만큼 빠른 공정 미세화가 이뤄지지 않아 무어의 법칙이 작동하지 않는다"고 진단했다. 이를 극복하는 방법으로 두 가지를 꼽았다.

돌파구 1 — 대형 패키지: 칩을 물리적으로 더 크게 만드는 것. Cerebras는 이미 웨이퍼 전체를 하나의 칩으로 쓰는 방식으로 일반 CPU와는 비교도 안 될 크기를 구현했다. "어떤 패키지를 얼마나 크게 만들 수 있고, 거기 실리콘을 얼마나 집적할 수 있는지가 관건"이라고 설명.

돌파구 2 — 설계·알고리즘 혁신: 회로 레이아웃 최적화, 메모리 대역폭 향상, 양자화(Quantization, 예: MX FP4 포맷) 등 소프트웨어·아키텍처 레벨의 개선이 하드웨어 미세화 한계를 보완하고 있다.

쉽게 풀어보기 — 리소그래피와 무어의 법칙
리소그래피(Lithography)
반도체 회로를 웨이퍼에 새기는 공정. 선폭이 좁을수록 같은 면적에 더 많은 트랜지스터를 집적할 수 있다. ASML의 EUV 장비가 현재 최전선.
무어의 법칙
반도체 집적도가 약 2년마다 2배 증가한다는 경험 법칙. 공정 미세화 속도가 둔화되면서 이 법칙은 사실상 한계에 도달했다는 것이 업계 공통 인식.
MX FP4 양자화
모델 가중치를 더 낮은 비트 수로 표현해 메모리·연산량을 줄이는 기법. 정밀도를 약간 희생하는 대신 처리 효율을 대폭 높인다.
모델 파라미터 인플레이션Bearish — 수요 재폭발 리스크

1조~10조 파라미터 모델의 등장 — 혁신 속도보다 수요가 더 빠르다

칩 업계 관계자 · 차세대 모델 규모 논의 · 관련: Elon Musk 언급 모델, $NVDA H100
💡 핵심 통찰

업계가 5년 만에 50배 혁신을 달성해도 모델 크기와 수요 증가 속도가 그보다 빠르다. 이 "3차원 큐브 딜레마" — 혁신·모델 확장·수요 폭증 — 때문에 인퍼런스 단가는 내려가도 H100 현물 가격은 오히려 상승하는 역설이 생긴다.

차세대 모델 파라미터 규모
1조~10조 파라미터 (유출/공개 논의 기준)
5년간 혁신 목표치
~50X 효율 개선 (업계 추정)

무슨 얘기였나: 발언자는 최근 (일부 유출·공개된) 정보를 인용하며, Elon Musk 관련 진영이 논의 중인 차세대 모델이 1조~10조 파라미터 규모에 근접하고 있다고 언급했다. 파라미터 수는 토큰 하나를 생성하는 데 필요한 기본 연산량(FLOP)과 직결되기 때문에, 모델이 커질수록 컴퓨트 수요가 폭발적으로 늘어난다.

3차원 큐브 딜레마: "칩 효율 혁신", "모델 파라미터 증가", "사용 수요 증가" — 이 세 요소가 모두 동시에 급성장하고 있다. 혁신 속도가 빠르더라도 나머지 두 요소가 더 빠르게 자라면 절대적인 컴퓨트 부족은 해소되지 않는다.

"5년에 걸쳐 50배 효율을 높여도, 모델과 수요는 그보다 더 빠르게 자라고 있습니다. 그래서 H100 가격이 — 스타트업이 쓰든 빌리든 — 실제론 오르고 있는 겁니다."

투자 시사점: 인퍼런스 단가 하락이 AI 서비스 기업의 원가 절감을 의미하지만, 동시에 더 많은 컴퓨트를 소비하는 더 큰 모델로의 이행이 맞물리면서 GPU 수요 자체는 꺾이지 않는다. 클라우드·데이터센터 인프라 투자 사이클이 장기화될 수 있는 근거다.

$NVDA H100역설적 가격 상승

단가는 99% 떨어졌는데 H100 임대가는 오른다 — 수요 > 공급의 역설

칩 업계 관계자 · H100 현물·임대 시장 언급
💡 핵심 통찰

"인퍼런스가 싸졌다 = GPU가 남아돈다"가 아니다. 효율 개선이 사용량 증가를 유발(제번스 역설)하고, 더 큰 모델이 더 많은 칩을 요구하면서 H100 스팟 가격은 오히려 올라가고 있다.

무슨 얘기였나: 발언자는 스타트업이 H100을 구매하거나 임대할 경우 가격이 올라가고 있다고 명시했다. 이는 인퍼런스 단가 하락이라는 거시 트렌드와 정반대처럼 보이지만, 실은 동일한 원인(컴퓨트 효율화 → 더 야심찬 모델 → 더 많은 절대 수요)의 양면이다.

함의: 단위 비용의 하락이 $NVDA 등 칩 업체의 매출 감소로 이어지지 않을 가능성이 크다. 오히려 AI 채택 확산과 모델 규모 확장이 수요를 구조적으로 지지하고 있음을 시사한다.