출처: Stratechery · Ben Thompson 인터뷰MUST ASSET — 시황 데일리

오늘의 시황

Apple의 AI 재아키텍처, Nvidia PC 칩, 에이전트 시대의 CPU 귀환 — Ben Bajarin과의 심층 대담

3줄 요약

  1. WWDC의 본질은 AI 기능 데모가 아니라 플랫폼 전면 재아키텍처 — CPU 스케줄러·검색 인덱스 재구축이 핵심이었고, Siri는 결국 "작동하는 2024년 수준 AI"를 목표로 한 것
  2. Apple은 클라우드 추론을 Google Cloud + Nvidia(H100급) + Gemini 기반 모델로 전환 — Apple Silicon in the cloud 사실상 폐기, 이 한 결정이 Google의 SpaceX GPU 조달·Gemini 라이선스 계약의 퍼즐을 완성함
  3. 에이전트 시대에 CPU가 데이터센터의 핵심 변수로 귀환 — Nvidia Vera, Arm, Intel 패키징(EMIB) 모두 이 흐름에 올라탔고, 반도체 공급망은 수요를 수년째 구조적으로 과소평가 중
오늘 한눈에 — Coverage at a Glance
주제/기업논점 출처핵심 한 줄
AAPLBajarin / ThompsonNeutral+AI 기능보다 플랫폼 재아키텍처가 본질 — 작동하는 2024년 AI
AAPL × GOOGL × NVDABajarin / ThompsonPositive (GOOGL·NVDA)Apple 클라우드 추론 = Google Cloud + Nvidia H100급, Apple Silicon 클라우드 사실상 종료
OpenAI / Consumer AIThompsonNegative소비자는 생산성에 돈 안 낸다 — OpenAI 소비자 전략 사실상 막힘
Project Solara (MSFT)Bajarin / ThompsonFWIW엔터프라이즈용 앰비언트 컴퓨팅 개념은 유효, 소비자 확장엔 회의적
NVDA RTX SparkBajarin / ThompsonNeutralWindows OEM에 통합 메모리 아키텍처 제공 — Apple 대항마, 가격은 $1,800+
NVDA Vera / ARM / INTCBajarin / ThompsonPositive에이전트 인프라에서 CPU 수요 급증 — 모든 플레이어가 CPU 랙 투자 중
INTCBajarin / ThompsonPositive (패키징)EMIB 기반 고급 패키징이 수십억 달러 사업으로 부상 — 용량 부족의 반사이익
$AAPLPlatform Rebuild

Siri가 드디어 "작동"하는 이유 — 화려한 AI가 아니라 지루한 인덱스 재구축이었다

WWDC 2026의 진짜 발표는 새 기능이 아니라 10년 된 플랫폼을 뜯어고친 것
Stratechery Interview · Ben Bajarin (Creative Strategies CEO) · 관련: $AAPL, Apple Intelligence, Gemini, RAG
💡 유레카 포인트

이번 WWDC의 본질은 AI 기능 추가가 아니라 플랫폼 전면 재아키텍처다. CPU 스케줄러, 검색 인덱스, 시맨틱 서치 기반을 모두 갈아엎지 않고서는 RAG 기반 Siri가 작동할 수 없었다. "엄마가 샌프란시스코에 언제 도착해?" 같은 데모가 2024년에 불가능했던 이유는 모델이 나빠서가 아니라 iMessage 검색 자체가 작동하지 않았기 때문이다. Apple은 이 사실을 뒤늦게 — 혹은 알면서도 외부에 늦게 — 인정한 셈이다.

온디바이스 신규 모델
20B 파라미터 MoE(Mixture-of-Experts)
최소 RAM 요건 (음성 모델)
12GB A19 Pro 이상 전용
MoE 라우팅 방식
쿼리 단위 (토큰 단위 아님 — 메모리 절약 구조)

Ben Bajarin이 꼽은 WWDC 2026의 가장 큰 변화는 어떤 신규 AI 기능도 아니었다. 운영체제 수준의 지루한 배관 공사 — CPU 스케줄러 업데이트, 검색 인덱스 재구축 — 가 이번 키노트의 진짜 주인공이었다. "Apple이 CPU 스케줄러를 언급한 게 언제였냐"는 Thompson의 물음은 단순한 수사가 아니다. 수십억 명의 사용자가 깔린 플랫폼을 근본부터 바꾸는 것이 얼마나 어려운 일인지를 방증한다.

인덱스가 핵심이었다: Siri가 원하는 대로 작동하려면 RAG(Retrieval-Augmented Generation)가 필수인데, RAG는 제대로 된 검색 인덱스 없이는 쓸모가 없다. Thompson은 "iMessage에서 메시지 검색을 해봤다면 그게 얼마나 안 됐는지 느꼈을 것"이라고 지적했다. 연락처에 있는 사람의 메시지조차 검색이 안 되는 상황에서 Siri가 맥락을 이해하길 바라는 건 무리였다.

2024 Apple Intelligence의 완성판: Bajarin과 Thompson 모두 이번 발표를 "2024년에 발표한 것을 이번에 진짜로 구현한 것"으로 정의했다. 신기술이 아니라 약속 이행이다. 20B 파라미터 MoE 온디바이스 모델은 토큰 단위가 아닌 쿼리 단위로 전문가(expert)를 선택해 메모리 부담을 줄이는 구조를 택했는데, 12GB RAM이 필요해 A19 Pro 이상에서만 음성 관련 기능이 지원된다. 다만 컨텍스트 Siri·시맨틱 검색 등 대부분의 기능은 구형 기기에도 제공된다.

소비자 AI의 실제 수요: Bajarin은 "대부분의 소비자는 ChatGPT나 Claude를 그냥 검색으로 쓴다"고 정리했다. 레시피, DIY 프로젝트 — 결국 고급 검색이다. Apple이 이 수준을 할머니도 쓸 수 있게 만들 수 있다면, 그게 소비자 AI의 실질적 엔드게임이라는 것이 두 사람의 공통된 결론이다.

쉽게 풀어보기 — RAG와 MoE
RAG (Retrieval-Augmented Generation)
AI 모델이 답변을 생성하기 전에 실제 데이터를 먼저 검색해서 참고하는 방식. "엄마 메시지 찾아줘"가 작동하려면 이 검색 단계가 제대로 돌아야 한다.
MoE (Mixture-of-Experts)
모델 안에 여러 '전문가' 서브모델을 두고, 질문 유형에 따라 일부만 활성화하는 구조. 전체 모델을 항상 돌리는 것보다 훨씬 효율적.
쿼리 단위 vs 토큰 단위 라우팅
일반 MoE는 단어 하나하나마다 어떤 전문가를 쓸지 결정하는데, 이러면 전체 모델이 메모리에 올라와 있어야 한다. Apple은 질문 전체 단위로 전문가를 선택해 메모리 부담을 줄였다.
$AAPL · $GOOGL · $NVDAStructural Shift

Apple Silicon in the Cloud는 끝났다 — Google Cloud + Nvidia가 Apple의 AI 두뇌를 맡는다

이상했던 여러 딜들이 한 번에 설명된다 — Google Gemini 라이선스, SpaceX GPU 조달, H100 재배치
Stratechery Interview · Ben Bajarin · 관련: $AAPL, $GOOGL, $NVDA, Private Cloud Compute, INTC
💡 유레카 포인트

Apple이 클라우드 추론에 Google Cloud + Nvidia GPU + Gemini 기반 모델을 공개적으로 명시한 것은 단순한 파트너십 공시가 아니다. Thompson의 표현대로 "한 번에 여러 이상한 실이 전부 맞아떨어지는" 사건이다. Google이 연간 10억 달러에 Gemini를 Apple에 준 이유, Google이 SpaceX로부터 Nvidia GPU를 사들인 이유, Apple이 Apple Silicon 클라우드 칩 개발을 사실상 중단한 이유가 모두 이 구도 안에서 정합성을 갖는다. Apple은 표준화된 인프라 위에서 광역 지리 커버리지와 옵셔널리티를 택한 것이며, 마진 손실은 감수할 만한 트레이드오프로 판단한 것으로 보인다.

Apple 클라우드 기반 모델
Gemini 기반 Apple 추가 훈련 적용
추정 GPU 등급
H100급 GB200 불필요 — 이미지 생성 수준
Gemini 라이선스 추정 비용
~$1B/년 실제 가치는 GCP 수익으로 회수
컨피덴셜 컴퓨팅 체인
Nvidia + Intel Intel은 헤드 노드 역할

Apple이 WWDC에서 Nvidia와 Intel을 직접 호명한 것은 최소 15년 만의 일이다. 두 회사가 오랫동안 "서로를 혐오했다"는 것은 업계 공공연한 사실 — Bajarin은 "너무 닮았기 때문"이라고 정리했다. 그 Apple이 Google Cloud 위에서 Nvidia GPU로 AI 추론을 돌린다고 스스로 밝혔다는 것은 전략적 대전환의 신호다.

온디바이스 모델은 순수 Apple산: 오해를 명확히 할 것은, 온디바이스 AFM(Apple Foundational Models) 5개 중 4개는 Gemini와 무관하다. Bajarin은 "Apple은 수년간 자체 AFM을 개발해왔고, 이를 명확히 하고 싶어했다"고 전했다. Gemini 기반 모델은 클라우드 Pro 모델 단 하나에 국한된다.

왜 Apple Silicon 클라우드를 포기했나: Thompson은 두 가지 이유를 제시했다. 첫째, 실제 필요 성능(이미지 생성 등)에 Apple Silicon이 충분하지 않았다. 둘째, 전 세계 커버리지를 위해 자체 데이터센터를 모든 국가에 지을 수 없으므로, 표준화된 인프라(Nvidia GPU)에 올라타는 것이 포터블한 옵션을 보장한다. TPU 대신 Nvidia를 선택한 이유도 여기에 있다 — TPU는 Google에 종속되지만, Nvidia GPU라면 AWS나 Azure로 언제든 이전이 가능하다.

퍼즐이 맞아떨어지는 순간: Google이 SpaceX로부터 Nvidia GPU를 대량 확보한 것, Gemini 라이선스를 연 10억 달러에 공급한 것 — 이 두 가지가 Apple의 대규모 GCP 고객 유치라는 맥락에서 비로소 설명된다. Apple은 H100급으로도 충분한 워크로드를 돌리므로, Google은 Apple에 구형 GPU를 할당하고 새 GB200은 프리미엄 고객에게 배정할 수 있다.

Bajarin의 컨피덴셜 컴퓨팅 각도: Bajarin은 규제 측면도 무시할 수 없다고 봤다. EU 데이터 이전 규정, 중국 내 데이터 처리 요건 등에서 컨피덴셜 컴퓨팅이 "국가 수준의 신뢰 인증"을 가능하게 한다는 논리다. Apple을 하나의 주권체(sovereign)로 보면, 글로벌 배포를 위한 규제 통과에 Nvidia·Intel의 기존 컨피덴셜 컴퓨팅 생태계가 유리하다는 분석이다.

"Google이 SpaceX GPU를 사들이고 Gemini를 Apple에 연간 10억 달러에 준 이유, Apple이 Apple Silicon 클라우드를 포기한 이유 — 이 뉴스 하나로 모든 이상한 실이 한꺼번에 맞아떨어진다." — Ben Thompson

AI 산업 구조론Consumer AI 회의론

소비자는 생산성에 돈 안 낸다 — OpenAI가 Dropbox의 실수를 반복하고 있다

AI 에이전트의 진짜 시장은 엔터프라이즈, 소비자의 AI 수요는 결국 "고급 검색"으로 수렴
Stratechery Interview · Ben Thompson 주도 논지 · 관련: OpenAI, Anthropic, $AAPL Siri, Dropbox
💡 유레카 포인트

Thompson의 핵심 주장: 엔터프라이즈는 생산성을 원하고, 소비자는 일하기 싫어서 소비자다. Dropbox가 소비자용 사진 앱 Carousel에 열정을 쏟다가 1년 만에 접은 것처럼, OpenAI의 소비자 야망도 같은 벽에 부딪혔다. Sam Altman이 "소비자도 AI에 돈을 낼 것"이라고 직접 말했지만, 현실은 달랐다. Bajarin은 이를 Jobs-to-be-Done 프레임으로 재해석한다 — 소비자가 Siri에게 시키는 일은 에이전트가 아니라 "검색 결과의 다른 이름"일 뿐이다.

AI 에이전트 붐 속에서도 Thompson과 Bajarin은 소비자 시장에 대해 냉정하다. 레시피 검색, DIY 프로젝트 조회 — 이것이 일반 소비자의 AI 활용 실태다. 에이전트가 파티를 대신 기획하고 물품을 주문해서 문 앞에 가져다준다는 시나리오는 실리콘밸리의 환상이다. 사람들은 쇼핑 자체를 즐긴다.

OpenAI의 소비자 전략은 막혔다: Apple이 iMessage와 Mail에 시스템 레벨로 접근하는 Siri를 탑재한 이상, OpenAI는 같은 깊이의 개인화를 소비자 기기에서 구현할 수 없다. 대부분의 소비자는 Apple의 답변 수준으로 만족할 것이고, $20/월짜리 ChatGPT 구독을 유지할 이유가 줄어든다. Thompson은 "OpenAI의 소비자 기기 수준 야망은 사실상 nil이 됐다"고 단언했다.

Jobs-to-be-Done으로 본 소비자 AI: Bajarin은 Christensen의 프레임을 적용해, "소비자도 '파티 계획'이라는 job은 있다"고 반론을 제기한다. 다만 이 job은 인간이 루프 안에 있는(human-in-the-loop) 협업형 작업이지, 에이전트가 완전 자율로 처리하는 것이 아니다. 결국 두 사람의 합의점은: 소비자 AI의 킬러앱은 에이전트가 아닌 컨텍스트 인지 검색이며, Apple이 그 시장을 장악할 위치에 있다는 것이다.

$NVDA · $INTC · ARM · $AMD · $QCOMCPU Renaissance

에이전트가 CPU를 살렸다 — "인간은 클릭하고, 에이전트는 떼로 몰려든다"

추론 시대의 인프라 토폴로지: GPU 랙 옆에 CPU 랙이 나란히 들어서기 시작했다
Stratechery Interview · Ben Bajarin · 관련: $NVDA Vera, ARM, $INTC, $AMD, $QCOM, Google Axion
💡 유레카 포인트

Cisco의 Jeetu Patel이 한 말이 이 섹션의 모든 것을 요약한다: "humans click, agents swarm." 인간 한 명이 한 번 클릭할 때, 에이전트는 수십만 개의 동시 요청을 발생시킨다. 이 규모 차이가 데이터센터의 CPU 수요를 완전히 다른 차원으로 끌어올린다. Thompson의 "Answer Inference vs Agentic Inference" 구분이 핵심이다 — 에이전트의 오케스트레이션·툴 호출은 CPU에서, 실제 추론의 무거운 계산은 GPU에서 일어나며, 이 분업 구조가 CPU의 귀환을 이끌고 있다.

Nvidia Vera
데이터센터 전용 CPU 추론 오케스트레이션 특화
RTX Spark 예상 가격
$1,800~2,000+ 통합 메모리 아키텍처 Windows PC

AI 인프라 투자의 화제는 GPU 클러스터였다. 하지만 Bajarin은 "추론 세계에서는 CPU 수요가 우리가 생각하는 것보다 훨씬 많이 늘어날 것"이라고 강조한다. Nvidia Vera, ARM 자체 칩, Intel, AMD, Qualcomm — 모든 플레이어가 동시에 데이터센터용 CPU 투자를 선언하고 있다. 우연이 아니다.

Answer vs Agentic Inference: Thompson이 최근 정리한 구분이 여기서 유효하다. 짧은 질문에 빠르게 답하는 Answer Inference는 에지(온디바이스)에서도 가능하다. 반면 수많은 툴을 호출하고 결과를 조합하는 Agentic Inference는 클라우드에서 이뤄지며, 여기서 CPU는 GPU를 먹이는 오케스트레이터 역할을 한다. 인간이 루프에 없을 때 속도보다 동시성이 중요해지고, CPU의 코어 수·스레드 처리량이 핵심 지표로 부상한다.

CPU 추론이 이미 일어나고 있다: Bajarin은 "GPU가 훈련 워크로드에 묶여 있어서 이미 많은 추론이 CPU에서 돌아가고 있고, 그냥 느릴 뿐"이라고 밝혔다. 루프에 인간이 없다면, 느린 것이 문제가 아니다. 에이전트 수가 수천만 개로 늘어나면 이것이 진짜 컴퓨팅 문제가 된다.

RTX Spark — Windows의 통합 메모리 도전: Nvidia RTX Spark의 가장 큰 의의는 통합 메모리 아키텍처를 Windows OEM에 처음으로 제공한다는 것이다. Apple Silicon의 핵심 강점이 여기서 도전받는다. 가격은 $1,800~2,000+ 수준으로 예상되어 매스마켓 제품은 아니지만, 엔터프라이즈 ITDM(IT 의사결정자)이 "토큰 비용 절감을 위해 에지에서 일부 추론을 처리"하는 시나리오에서 정당화된다. Thompson은 CPU 성능보다 GPU에 무게를 둔 설계가 에이전트 시대에는 다소 시기상조였을 수 있다고 지적했다.

x86 vs ARM — 소프트웨어 해자가 녹는다: Bajarin은 "에이전트가 소프트웨어를 재작성할 수 있게 되면 x86의 소프트웨어 호환성 해자도 사라질 수 있다"고 했다. 그는 같은 논리가 CUDA에도 적용될 수 있다고 언급하면서도 "너무 논쟁적"이라 유보했다. 열(thermal) 제약 안에서 코어당 처리량을 극대화하는 ARM 아키텍처가 에이전트 컴퓨팅에 구조적으로 유리하다는 것이 그의 판단이다.

$INTCPackaging Renaissance

Intel의 역설적 부활 — 파운드리 야망이 낳은 패키징 역량이 수십억 달러 사업이 됐다

TSMC CoWoS 용량 병목이 Intel EMIB를 살렸다 — 기술 우위보다 용량이 전부인 시대
Stratechery Interview · Ben Bajarin · 관련: $INTC, $NVDA, TSMC, $AVGO, EMIB, CoWoS
💡 유레카 포인트

Intel 패키징 부활의 본질은 기술 혁신이 아니라 TSMC의 CoWoS 용량 병목이다. 수요가 폭발적으로 늘어난 상황에서 "TSMC에서 CoWoS를 충분히 확보할 수 있는 특권층"에 들지 못한 모든 고객이 Intel EMIB로 시선을 돌리고 있다. Bajarin의 표현대로 "기술적으로 더 나을 필요도 없었다 — 용량만 있으면 됐다." Pat Gelsinger가 이사회와 싸우며 파운드리에 투자하려 했던 것이, 아이러니하게도 이 패키징 용량으로 빛을 발하고 있다.

Intel 하면 떠오르는 서사는 수년간 "추락"이었다. 그런데 Bajarin과 Thompson의 대화에서 Intel은 묘하게 반등의 실마리가 보이는 기업으로 등장한다. 파운드리 실패의 유산인 EMIB 패키징 기술과 확보된 용량이 AI 인프라 공급망의 병목에서 역설적으로 수혜를 받고 있다.

EMIB란 무엇인가: 칩을 하나의 거대한 단일 다이로 만드는 시대는 끝났다. 이제 여러 개의 타일(다이)을 레고처럼 조립해 하나의 패키지로 만드는 방식이 표준이다. TSMC는 이를 CoWoS(Chip on Wafer on Substrate)로 구현하고, Intel은 EMIB(Embedded Multi-die Interconnect Bridge)로 구현한다. Intel EMIB의 차별점은 서로 다른 공정에서 나온 타일을 혼합(mix-and-match)할 수 있다는 것 — Panther Lake에서 TSMC 타일과 Intel 타일을 함께 패키징한 것이 그 예다.

용량이 기술을 이긴다: Thompson과 Bajarin 모두 EMIB가 기술적으로 CoWoS보다 낫다고 단정하지는 않는다. 중요한 것은 TSMC CoWoS는 소수의 프리미엄 고객만 접근 가능한 희소재가 됐다는 사실이다. 그 밖의 모든 기업에게 Intel 패키징은 현실적인 대안이 되고 있으며, 이 사업이 수십억 달러 규모로 성장하고 있다.

이번 주 Nvidia-Intel 루머에 대해: Nvidia 칩을 Intel이 파운드리 생산한다는 보도가 있었으나, 실제는 패키징 딜이었다. Bajarin은 "Nvidia의 아키텍처는 이미 레티클 한계에 도달해 두 칩을 붙이는 방식을 쓰고 있어, EMIB 접근이 오히려 더 적합할 수 있다"고 설명했다. 하지만 결론은 기술이 아닌 용량 — Nvidia는 단일 소싱을 하지 않을 것이므로, Intel의 실제 기회는 기술 우위가 아닌 추가 공급처 확보 니즈에 있다.

Pat Gelsinger의 역설: 이사회가 파운드리 투자 확대를 막아 Gelsinger를 결국 내보냈지만, 그가 쌓아둔 패키징 역량이 지금 빛을 발하고 있다. Bajarin은 "그가 원하는 만큼 용량을 확보했다면 Intel의 재무는 지금보다 훨씬 좋았을 것"이라고 했다. 수요의 규모를 아무도 예측하지 못했다는 점에서, 그것은 업계 전체의 실패였다.

반도체 산업 구조Supply Chain Failure

왜 아무도 이 수요를 못 봤나 — 삼성과 Morris Chang이 가르쳐준 교훈을 업계가 잊었다

TSMC, 메모리, 파운드리 모두 ChatGPT 이후 수년간 설비투자를 보수적으로 유지했다
Stratechery Interview · Ben Thompson 주도 논지 · 관련: TSMC, 삼성, $INTC, 메모리 업계
💡 유레카 포인트

ChatGPT 등장 직후 TSMC는 CapEx 성장을 오히려 줄였다. 메모리 업체들도 수년간 증설을 미뤘다. 반도체 업계가 이 수요를 구조적으로 과소평가한 배경에는 "우리는 과잉 투자로 너무 많이 데였다"는 집단 트라우마가 있다. 하지만 역사의 교훈은 반대를 가리킨다 — 삼성은 불황기에 역투자해 메모리 패권을 잡았고, Morris Chang은 2010년 금융위기 직후 보수적 경영진을 전원 해고하고 투자를 밀어붙여 TSMC의 오늘을 만들었다. 업사이클을 남들보다 먼저 믿는 것이 패권의 조건이었는데, 이번에는 업계 전체가 그 믿음을 유보했다.

Thompson은 자신이 "TSMC 브레이크"를 1년 전에 썼는데 최근 다른 사람의 논점으로 유통되고 있다며 가볍게 불만을 표했다. 그보다 중요한 것은 이 패턴이 반도체 공급망 전반에 걸쳐 반복됐다는 점이다. TSMC, 메모리 업체, 파운드리 모두 ChatGPT 이후에도 수년간 설비투자를 보수적으로 유지했다.

왜 보수적이었나: Bajarin은 "이 산업은 과잉 투자로 너무 많이 당했다"고 설명한다. 팹 가동률이 70~80% 이하로 떨어지면 수익이 없다. 메모리 업계는 사이클 하강기의 고통이 DNA에 새겨져 있다. 그래서 "정말 증명해줘야 투자한다"는 태도가 기본값이다.

그럼에도 잘못된 판단이었다: Thompson의 지적은 날카롭다. AI 수요의 시그널은 ChatGPT 이전부터 있었다. Wolfram|Alpha 플러그인이 등장했을 때 "모델이 도구를 사용한다 = 소프트웨어가 컴퓨팅을 호출한다"는 구조는 이미 세어볼 수 있었다. 메모리 업계가 수십 년간 한 번도 메모리 최적화를 진지하게 고민하지 않았다는 것은, 반대로 말하면 최적화 여지가 그만큼 크다는 뜻이기도 하다 — 이것이 결국 메모리 공급업체에게 장기적 역풍이 될 수 있다는 Thompson의 경고다.