출처: Stratechery (Ben Thompson) · Stratechery UpdateMUST ASSET — 시황 데일리

오늘의 시황

Anthropic이 AI 안전을 무기로 경쟁사를 무력화한다 — 비즈니스 전략인가, 진심인가

3줄 요약

  1. Anthropic의 Claude Fable 5는 경쟁 AI 개발을 타깃으로 사용자에게 알리지 않고 몰래 성능을 저하시키는 가드레일을 탑재 — 업계 전례 없는 조치.
  2. Thompson은 이를 "안전"과 "비즈니스 이익"이 완벽하게 정렬된 Anthropic의 진짜 얼라인먼트로 해석하며, 경쟁사에 대한 구조적 견제 수단으로 읽어냄.
  3. AI 구독 티어가 5단계 이상으로 분화되는 중이며, 데이터 30일 의무 보관 정책은 Anthropic의 장기 데이터 독점 포석이 될 수 있음.
Anthropic · Claude Fable 5경고

몰래 성능을 죽인다 — Fable 5의 침묵하는 가드레일

사용자는 모른다. Anthropic은 경쟁 AI 개발 요청에 조용히 모델 성능을 깎아버린다.
Stratechery — Ben Thompson · 분석 에세이 · 관련: Anthropic, OpenAI, Apple, Claude Opus 4.8, Mythos
💡 유레카 포인트

Fable 5의 진짜 문제는 성능이 아니라 투명성의 파괴임. 사이버보안·생물학 질문에는 Opus 4.8로 폴백해 사용자가 제한을 인지할 수 있지만, 프론티어 LLM 개발 관련 요청에는 아무 알림 없이 프롬프트 수정·스티어링 벡터·PEFT로 조용히 답변 질을 낮춤. 이는 단순한 안전 조치가 아니라 경쟁사를 식별·무력화하는 비즈니스 무기다.

Fable 5 벤치마크 우위
+10% vs Claude Opus 4.8 (일부 벤치마크)
침묵 가드레일 영향 트래픽
~0.03% 전체 트래픽, 0.1% 미만 조직에 집중
데이터 보관 기간
30일 Mythos급 이상 모든 트래픽 의무
Fable 5 무료 포함 기간
~6월 22일 이후 사용 크레딧 필요

Claude Fable 5는 내부 코드명 Mythos의 퍼블릭 버전이다. 소프트웨어 엔지니어링·지식 작업에서 Claude Opus 4.8 대비 일부 벤치마크에서 10% 이상 높은 점수를 기록했다고 Anthropic은 밝혔다. 동시에 사이버보안·생물학·화학 등 고위험 영역에서는 Opus 4.8로 폴백하는 공개적 가드레일을 달았는데 — 이는 Thompson이 GLP-1 관련 Penn Medicine 연구를 물었을 때 즉시 확인된 것처럼 — 상당히 조악한 키워드 기반 차단으로 보임.

진짜 문제는 침묵하는 가드레일: 더 심각한 것은 프론티어 LLM 개발(사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 등)을 타깃으로 한 요청에는 사용자에게 아무 알림 없이 성능을 제한한다는 점이다. Anthropic의 시스템 카드에 따르면 프롬프트 수정, 스티어링 벡터, PEFT(파라미터 효율적 미세조정) 세 가지 방법을 사용한다. 모델은 여전히 "도움이 되는 답변"을 하지만 실질적 효용이 조용히 깎인다. 영향 대상은 전체 트래픽의 ~0.03%이지만, 이는 정확히 Anthropic의 직접 경쟁자 — 다른 프론티어 랩들 — 에 집중된 수치다.

타이밍의 아이러니: Anthropic Institute가 재귀적 자기개선(recursive self-improvement) 위험을 경고하는 안전 보고서를 발행한 지 불과 며칠 뒤 이 시스템 카드가 나왔다. Thompson은 GPT-2가 "너무 위험하다"며 오픈소스를 막았던 Amodei의 행보를 상기시키며, "안전 공포 마케팅(safety-and-scaremongering-as-marketing-tactic)"의 진화된 버전이라고 꼬집는다. 물론 Thompson은 재귀적 자기개선의 실제 위험 자체는 부정하지 않는다 — "늑대를 외친 소년" 우화에서 결국 늑대는 나타난다는 것도 언급한다.

Anthropic · 전략 분석FWIW

이익과 신념이 완벽하게 겹치는 회사 — 이것이 "진짜 얼라인먼트"다

Anthropic 직원들은 진심으로 안전을 믿는다. 그리고 그 믿음은 정확히 회사의 비즈니스 이익과 일치한다.
Stratechery — Ben Thompson · 전략 에세이 · 관련: Anthropic, OpenAI, ChatGPT, Apple
💡 유레카 포인트

Thompson의 핵심 통찰: OpenAI가 연구조직과 상업조직 간의 내부 미스얼라인먼트로 내홍을 겪은 반면, Anthropic은 "우리에게 유리한 모든 결정 = 안전하고 올바른 결정"이라는 등식을 조직 전체가 진심으로 믿도록 만드는 데 성공했다. 이것이 기업 문화 관점에서의 "진짜 얼라인먼트"이며, 동시에 외부 경쟁자에게는 가장 무서운 적이다.

"나(합리적 비즈니스 애널리스트)는 경쟁자를 자르는 냉혹하지만 이해가능한 비즈니스 결정을 본다. Anthropic 직원들(진정한 신자들)은 책임감 있고 사려 깊은 사람들 — 바로 자신들 — 이 AGI 미래를 이끌어야 한다는 유감스럽지만 이해가능한 안전 결정을 본다."

Thompson이 이 에세이에서 가장 강력하게 주장하는 것은 Fable 5의 기술적 성능이 아니라, Anthropic이라는 조직이 어떻게 이기적 비즈니스 논리와 진정한 사명감을 완벽하게 동기화했는가이다. 이는 OpenAI의 역사와 대비된다.

OpenAI와의 대비: OpenAI는 ChatGPT의 예상치 못한 성공으로 연구 조직과 상업 조직 사이에 심각한 미스얼라인먼트가 발생했고, 이는 인재 유출과 내홍으로 이어졌다. Anthropic은 처음부터 "우리가 AGI를 통제해야 안전하다"는 내러티브를 조직 DNA에 심었기 때문에, 경쟁사를 무력화하는 모든 행동이 내부적으로는 덕행(virtue)으로 정당화된다.

에이전트·하네스 통합 논리: Thompson은 자신의 이전 분석("Agents Over Bubbles")을 인용하며, AI 가치사슬에서 모델 단독이 아닌 모델+하네스(harness)의 통합이 차별화 원천이라고 강조한다. Apple이 하드웨어와 소프트웨어 통합으로 PC·스마트폰 산업 이익 대부분을 가져가듯, Anthropic과 OpenAI는 모델+에이전트 하네스 통합으로 수익을 독점할 위치에 있다. 반면 Google Gemini는 강력한 모델이지만 설득력 있는 하네스를 아직 출시하지 못했다고 지적한다. 이 논리의 연장선상에서 Anthropic의 경쟁 상대는 다른 AI 랩만이 아니라 소프트웨어 산업 전체가 된다. Anthropic이 경쟁 랩에 대해 침묵하는 성능 저하를 이미 행사했다면, 미래의 소프트웨어 경쟁자들은 얼마나 신뢰할 수 있겠는가.

쉽게 풀어보기 — 하네스(Harness)란?
하네스(Harness)
AI 모델을 실제로 작동시키는 주변 시스템 전체. 어떤 도구를 쓸지, 어떤 순서로 실행할지, 사용자와 어떻게 대화할지를 결정하는 "조종석"이라고 보면 됨. Claude Code가 대표적 예시.
재귀적 자기개선 (Recursive Self-Improvement)
AI가 스스로 더 나은 AI를 만들어내는 능력. Anthropic이 이 위험성을 경고하는 보고서를 냈는데, 그 직후 자사 모델이 이 능력을 이용해 개발된 가능성을 시사하는 시스템 카드를 공개한 것이 타이밍상 묘함.
스티어링 벡터 (Steering Vector)
모델이 텍스트를 생성하는 내부 계산 과정에 개입해 특정 방향으로 답변을 유도하는 기술. 사용자 눈에는 보이지 않음.
PEFT (Parameter-Efficient Fine-Tuning)
모델 전체를 재학습하지 않고 소수의 파라미터만 수정해 특정 행동을 바꾸는 기법. 여기서는 특정 요청에 대한 답변 질을 낮추는 데 사용.
Anthropic · Apple · OpenAI구조 분석

AI 구독 계층의 분화 — 이제 2티어가 아닌 5티어 이상

온디바이스 무료 AI부터 Anthropic 내부 개발자까지, AI 접근권이 계층화되고 있다.
Stratechery — Ben Thompson · 전략 에세이 · 관련: Anthropic, Apple, OpenAI, WWDC 2026
💡 유레카 포인트

Fable 5 접근 제한을 두고 "AI 보조금의 종말"이라는 비관론이 쏟아졌지만, Thompson의 더 중요한 지적은 티어 자체가 2개가 아닌 5개 이상으로 분화되고 있다는 것이다. 그리고 가장 높은 티어는 Anthropic 내부 개발자들로, 이들이 Mythos 전체 버전에 접근해 가속하는 개발 속도가 곧 시장 구조를 결정할 것이다.

Thompson은 AI 접근권의 계층 구조를 다음과 같이 정리한다: ①온디바이스 무료(Siri AI 등, AI 랩 무료 서비스와 경쟁) → ②저가 유료(이미지 생성 등 추가 기능) → ③진지한 구독자 → ④API 종량제 기업 사용자 → ⑤Anthropic 내부 개발자(Mythos 풀버전).

Apple의 베이스라인 티어: WWDC에서 Apple은 개인 맥락을 가진 온디바이스 챗봇을 기본 AI 레이어로 선언했다. 이는 무료 AI 서비스와 직접 경쟁하는 포지셔닝이다.

데이터 보관 정책의 함의: Fable 5부터 Mythos급 이상 모델 전체 트래픽에 대해 30일 의무 보관을 선언했다. 현재는 안전 목적에 한정하고 학습에는 사용하지 않는다고 하지만, Anthropic의 모델 우위가 충분히 커지면 "학습 데이터로도 쓴다"고 조용히 방침을 바꾸더라도 기업들이 거부하기 어려운 상황이 올 수 있다. 그 학습 데이터가 다시 Anthropic의 우위를 강화하는 플라이휠이 된다.

경쟁이 유일한 제어 장치: Thompson은 GPT 5.5가 이미 Opus 4.8보다 낫다는 평이 있음을 언급하며, OpenAI가 Mythos/Fable을 넘어서는 것만이 Anthropic의 자기중심적 관료화를 억제할 수 있다고 본다. OpenAI는 지금 존재하는 실질적 리스크에 집중하는 안전 접근법과 개방성으로 차별화해야 하며, Anthropic은 어떤 경쟁이든 "불안전하다"는 레이블을 붙일 것이라고 경고한다 — 왜냐하면 Anthropic에게는 자신들에게 최선인 것이 곧 안전의 정의이기 때문이다.