오늘의 시황 — 2026.06.01

LLM InferenceFWIW

토큰 지출 지수 급락, 공포의 실체는 "프론티어→오픈웨이트 로테이션"

지수 숫자만 보면 AI가 무너지는 것 같지만, 실상은 사용 mix의 이동일 수 있다.

Silicon Data · TMT Breakout 분석 ·

💡 유레카 포인트

이 지수는 총 토큰 소비량도, 단순 평균 가격도 아니다. 사용량 가중 평균 토큰 단가다. 즉 개별 모델 가격이 그대로여도, 사용자가 싼 모델로 몰리면 지수는 떨어진다. 최근 하락은 수요 붕괴가 아니라 usage mix 이동의 신호일 가능성이 더 높다.

지수 최근 고점

~2.06 5월 말

6월 현재 지수

~1.45 급락 진행 중

21d 연율 성장률

~−100%+ 6월 초

Fable 5 출시 단가

$10/$50 2× Opus 수준

이 지수가 측정하는 것: Silicon Data의 LLM Token Expenditure Index는 AI 인퍼런스의 "실효 단가 게이지"다. 어떤 모델이 쓰이든 상관없이 시장 전체가 백만 토큰당 현재 얼마를 지불하고 있는지를 usage-weighted 방식으로 산출한다. 지수 1.8755 = 시장 블렌디드 비용 약 $1.88/million tokens. 중요한 오해 두 가지: ① 총 토큰 소비량이 아님, ② 게시 가격 단순 평균이 아님. 개별 모델 가격이 안정적인 시기엔 지수 움직임의 대부분이 usage mix 변화로 설명된다.

① Dec→late Jan (+70%, 1.02→~1.78): GPT-5.1(11/12), Gemini 3 Pro(11/18), Opus 4.5(11/24, $5/$25 — 기존 $15/$75에서 인하)가 트래픽을 비싼 에이전틱 토큰 쪽으로 끌어올렸다. 게시 가격이 떨어지는 중에도 지수가 올랐다는 건 usage mix 이동이 지수를 주도한다는 방증.

② Jan 19~26 고점 플래토 ~1.78 → 롤오버: Kimi K2.5(1T 오픈웨이트)가 1월 27일 드롭되며 중국발 오픈웨이트 블리츠(1/27~2/16)가 시작됐다. 이것이 첫 번째 급락의 방아쇠.

③ 두 번째 하락, 1.27 저점(Mar 초): Qwen3-Coder-Next(2월 초), GLM-5(2/11), MiniMax M2.5(2/12), Qwen 3.5(2/16) — 3주 만에 S급 오픈모델 4개 폭발. 프론티어 볼륨은 성장해도 share(점유율)가 블렌드를 결정하므로 지수는 1.27까지 추락.

④ 추진→복귀(Mar~Apr): 출시 주의 eval 트래픽이 빠지면 에이전틱 실무 워크로드가 다시 프론티어로 복귀. GPT-5.2, Opus 4.6→4.7, Gemini 3.1이 업그레이드 트래픽을 재점화. 중요한 것은 저점이 1.02 → 1.27로 높아졌다는 것 — 구조적 오픈웨이트 저점이 올라가고 있음을 시사.

⑤ May 멜트업 ~2.06: 에이전틱 채택이 복리로 쌓이는 가운데 GPT-5.5가 아웃풋 토큰을 $30/M(GPT-5.1의 $10/M 대비 3배)으로 재가격. 부분적으로 스티커 인플레이션이지만, Kimi K2.6(4/20), DeepSeek V4(4/22)라는 강력한 오픈웨이브를 뚫고 지속됐다.

⑥ 6월 롤오버(빨간 박스, 최대 관심 구간): 5월 28일 고점 → 6/1 이후 가속 하락. Copilot이 usage-based 청구로 전환, 4월 오픈웨이브 성숙, MiniMax M3 출시. 핵심 포인트: Opus 4.8가 OpenAI 스티커가 올랐음에도 $5/$25 UNCHANGED로 출시 — 이번만큼은 프론티어 가격 인하 탓이 아님. 순수 supply rotation이 지수를 누르는 중.

⑦ Fable 5(6/9, $10/$50 — 2× Opus): 샘플 내 첫 프론티어 가격 인상. 최종 인덱스 프린트 ~1.89 바로 직전에 착지. 11월 유사 사례는 수 주 내 지수를 밀어 올렸다. 만약 이 프리미엄 출시에도 지수가 계속 빠진다면, 그건 레짐 체인지 신호 — 다음 4주가 2월이 이미 통과한 테스트다.

"지수 하락이 수요 파괴를 뜻한다면 인덱스는 1.79, 로테이션+성장이면 1.80, 아웃라이트 붐이어도 1.80 — 세 시나리오가 모두 같은 숫자로 수렴한다."

시나리오 매트릭스 — 지수가 말해주지 않는 것:

아래 표는 같은 지수 수치가 완전히 다른 수요 현실을 숨길 수 있음을 보여준다. 지수 단독으로는 수요 강도를 판단할 수 없는 이유다.

시나리오	프론티어 토큰	저가 토큰	총 지출	총 토큰	지수
Baseline	100B	500B	$1,200k	600B	$2.00
World 1: 수요 파괴	85B (−15%)	500B (flat)	$1,050k (−12.5%)	585B (−2.5%)	$1.79
World 2: 로테이션+성장	105B (+5%)	615B (+23%)	$1,296k (+8%)	720B (+20%)	$1.80
World 3: 아웃라이트 붐	140B (+40%)	820B (+64%)	$1,728k (+44%)	960B (+60%)	$1.80

쉽게 풀어보기 — LLM Token Expenditure Index

LLM Token Expenditure Index: AI 모델을 쓸 때 시장 전체가 토큰 100만 개당 평균 얼마를 내고 있는지를 나타내는 지수. 특정 모델 가격이 아니라 "모든 AI 이용자가 실제로 쓰는 모델 mix를 반영한 평균 단가".
Usage Mix: 사람들이 어떤 모델을 얼마나 쓰는지의 비율. 비싼 모델(GPT-5.5)로 몰리면 지수 상승, 싼 오픈소스 모델(DeepSeek, Qwen)로 몰리면 지수 하락.
오픈웨이트(Open-weight) 모델: 가중치를 공개해 누구나 자체 서버에서 돌릴 수 있는 AI 모델. 대체로 API 단가가 훨씬 저렴하거나 무료. Kimi K2.5, Qwen 3.5, DeepSeek V4 등.
에이전틱(Agentic) 토큰: AI가 단순 답변이 아니라 여러 단계 작업을 자율 수행하는 과정에서 소비되는 토큰. 일반 채팅보다 수십~수백 배 많은 토큰을 쓰므로 프리미엄 모델에 집중되는 경향.
Ramp AI Index: 기업 카드 결제 데이터를 보유한 Ramp가 집계한 기업 AI 지출 지수. LLM 구독, 코딩 에이전트, API 토큰, GPU 클라우드 비용 포함.

Enterprise AI SpendPositive

비용 압력에도 AI 지출은 전 계층 동반 급등 — Ramp AI Index

가격이 떨어지는데 지출이 늘었다면, AI는 탄성 수요 교과서 사례다.

Ramp AI Index ·

💡 유레카 포인트

Ramp 카드 결제 데이터에 따르면 비용 압력에도 불구하고(Finding 2) AI 지출은 상승 중이다. 최상위(Top 1%)만이 아니라 중앙값(Median) 기업도 수직 상승 — 이는 AI가 특정 하이퍼스케일러만의 이야기가 아님을 시사한다.

Top 1% AI 지출/인/월

$7,500 2026년 5월 기준

Top 10% AI 지출/인/월

$630 2026년 5월

중앙값 AI 지출/인/월

$12 2026년 5월, 수직 상승 중

Ramp의 기업 카드 결제 데이터(LLM 구독 + 코딩 에이전트 + API 토큰 + GPU 클라우드 포함)를 보면, 2024년 1월 대비 2026년 5월 기준 AI 지출은 계층을 불문하고 J커브를 그리며 급등했다. Top 1% 기업의 직원 1인당 월 AI 지출은 $7,500에 달하며, 가장 주목할 것은 중앙값 기업도 최근 수직에 가깝게 꺾였다는 점이다.

왜 중요한가: 토큰 단가(지출 지수)는 하락하는데 총 AI 지출은 상승한다 — 이것은 수요가 비용 압력을 흡수하고도 남는 탄성 수요라는 증거다. 저렴해진 모델이 더 많은 use case를 개방하고, 그 볼륨이 단가 하락을 상쇄하는 전형적인 기술 보급 곡선.

해석 시 주의: Ramp 데이터는 Ramp 카드를 사용하는 기업 기준이므로 전체 시장의 대표성에는 한계가 있음. 단, 규모와 분포를 감안할 때 방향성 참조는 유효.

3줄 요약

토큰 지출 지수 급락, 공포의 실체는 "프론티어→오픈웨이트 로테이션"

비용 압력에도 AI 지출은 전 계층 동반 급등 — Ramp AI Index