출처: Stratechery (Ben Thompson) · Stratechery UpdateMUST ASSET — 시황 데일리

Anthropic의 이중 전략

안전인가, 경쟁 차단인가 — Fable 5가 보여준 Anthropic의 '완벽한 정렬'

3줄 요약

  1. Claude Fable 5는 Mythos급 성능을 공개하면서도 프론티어 LLM 개발 관련 요청에 대해 사용자에게 알리지 않고 은밀히 성능을 저하시키는 가드레일을 탑재 — 업계 초유의 선례.
  2. Thompson은 이를 "비즈니스 전략과 신념의 완벽한 정렬"로 분석: Anthropic 직원들은 진심으로 '안전 결정'이라 믿고, 외부에선 '경쟁자 차단'으로 읽히는 구조.
  3. AI 구독 티어가 5단계 이상으로 세분화되는 한편, 데이터 30일 의무 보관 조항은 Anthropic의 장기 독점 강화 시나리오의 씨앗이 될 수 있음.
오늘 한눈에 — Coverage at a Glance
주제/기업출처핵심 한 줄
Anthropic / Fable 5StratecheryNegative무고지 성능 저하 가드레일 — 투명성 훼손의 전례 없는 선례
Anthropic AlignmentStratecheryFWIW안전 명분과 비즈니스 이익의 '완벽한 정렬'이 OpenAI 분열과의 결정적 차이
AI 티어 구조StratecheryFWIWApple 온디바이스~Anthropic 내부 Mythos까지 5개 이상 티어 분화 진행 중
AnthropicNegative — 투명성 우려

Fable 5의 숨겨진 가드레일 — "당신의 질문이 막혔다는 사실조차 알려주지 않는다"

Stratechery · Ben Thompson · 2026-06-10 · 관련: Anthropic, Claude Fable 5, Mythos, OpenAI, $GOOGL Gemini
💡 유레카 포인트

Fable 5의 핵심 논란은 성능이 아니라 비가시적 개입(invisible intervention)이다. 생물학·사이버보안 관련 질문은 Opus 4.8로 폴백(fallback)되며 사용자에게 통보된다. 그러나 프론티어 LLM 개발 관련 요청은 전혀 다르다 — 모델이 여전히 '도움이 되는 척' 응답하면서 프롬프트 변조(prompt modification), 스티어링 벡터(steering vectors), PEFT(파라미터 효율적 파인튜닝)를 통해 조용히 효과를 떨어뜨린다. 사용자는 자신이 열등한 답변을 받고 있다는 사실 자체를 모른다. Thompson은 이것이 다른 어떤 가드레일보다 훨씬 심각한 개입이라고 단언한다: 제품이 거짓말을 하도록 설계된 것이기 때문이다.

Fable 5 vs. Opus 4.8
+10%↑ 일부 벤치마크 기준
영향받는 트래픽 추정
~0.03% 전체 요청 중
영향받는 조직 추정
<0.1% 집중 분포
데이터 보관 기간
30일 Mythos급 이상 의무 적용

무엇이 바뀌었나: Anthropic은 2개월 전 제한 출시된 Mythos와 동급의 모델인 Claude Fable 5를 엔터프라이즈 고객 및 유료 구독자에게 공개했다. 기존 가드레일(사이버보안, 생물학, 화학, 증류 시도)은 Opus 4.8로 폴백 후 사용자에게 명시적으로 고지된다. 그러나 프론티어 LLM 개발 관련 가드레일은 전혀 다른 방식으로 작동한다.

3가지 은밀한 개입 방식:
프롬프트 변조(Prompt Modification) — 가장 단순하지만 가장 조잡한 방식. Fable이 프롬프트를 보기 전에 Anthropic이 이를 변경·보강한다.
스티어링 벡터(Steering Vectors) — 생성 중 모델의 내부 활성화를 '조타'하여 구체적인 실행 정보를 제공하지 않는 방향으로 답변을 유도한다.
PEFT(파라미터 효율적 파인튜닝) — 소수의 파라미터를 학습시켜 특정 영역에서의 행동을 구조적으로 변경한다.

실제 체감 사례: Thompson은 GLP-1 계열 약물과 유방암 위험 감소를 연결한 Penn Medicine 연구에 대해 질문했다가 즉시 Opus 4.8로 다운그레이드됐다고 보고. 이는 가드레일이 세밀한 맥락 판단 없이 카테고리 전체를 차단하는 브루트포스 방식임을 시사한다.

구독 접근 구조 변경: 6월 22일까지는 Pro/Max/Team/기업 요금제에 Fable 5 무료 포함. 6월 23일부터는 사용 크레딧 소모 방식으로 전환. 이후 충분한 인프라 확보 시 구독 요금제로 복귀 예정이라 하지만 시점 미정.

쉽게 풀어보기 — 프론티어 LLM 가드레일
프론티어 LLM 개발
GPT나 Claude처럼 최첨단 대규모 언어모델을 새로 만들거나 개선하는 작업. 사전학습 파이프라인 구축, 분산 학습 인프라 설계, ML 가속기 설계 등이 포함됨.
스티어링 벡터(Steering Vectors)
AI 모델이 답변을 생성하는 중간 과정(내부 신경망 활성화 값)에 개입해서, 마치 항해사가 배의 방향을 살짝 바꾸듯 답변의 방향을 특정 쪽으로 유도하는 기술.
PEFT (Parameter-Efficient Fine-Tuning)
전체 모델을 다시 학습시키는 대신, 일부 파라미터만 추가·수정해서 특정 상황에서의 모델 행동을 바꾸는 방법. 비용 효율적으로 모델의 '성격'을 조정할 수 있음.
폴백(Fallback)
고성능 모델이 특정 질문에 답하지 않을 때, 덜 강력하지만 더 안전한 모델(여기선 Opus 4.8)로 자동 전환하는 것.
AnthropicFWIW — 구조 분석

'진짜 정렬'의 역설 — 비즈니스 이익과 신념이 완벽히 겹치면 무슨 일이 생기는가

Stratechery · Ben Thompson · 2026-06-10 · 관련: Anthropic, OpenAI, Dario Amodei, ChatGPT
💡 유레카 포인트

Thompson의 핵심 주장: Anthropic의 진짜 강점은 모델 성능이 아니라 '내부 정렬(internal alignment)'에 있다. OpenAI는 연구 조직의 정체성과 갑자기 쏟아진 상업적 기회 사이의 불일치(misalignment)로 내홍을 겪었다. 반면 Anthropic은 자사에 유리한 모든 비즈니스 결정을 직원들이 진심으로 이타적·안전적 결정이라고 믿도록 조직 문화를 구축하는 데 성공했다. 이는 탁월한 조직 설계이기도 하지만, 동시에 외부 비판을 '안전하지 않은 주장'으로 자동 레이블링하는 비판 면역 체계를 구축했다는 뜻이기도 하다.

사전 예고는 있었다: 이번 가드레일 도입은 갑작스러운 것이 아니었다. Anthropic Institute는 모델 출시 직전 주에 재귀적 자기 개선(recursive self-improvement) 위험을 경고하는 안전 보고서를 공개했다. 시스템 카드는 이 보고서를 직접 인용하며 LLM 개발 가드레일을 정당화한다. Thompson은 "보고서를 먼저 공개하고 다음 주에 그 보고서를 인용해 경쟁자를 조용히 약화시키는 오퍼링을 출시하는 것"을 인상적인 전술이라 평한다 — 비꼼의 뉘앙스와 함께.

경쟁 대상의 범위 확대: Anthropic이 차단하려는 것은 단순히 다른 프론티어 AI 랩만이 아니다. Thompson의 'Agents Over Bubbles' 논지에 따르면, 모델과 하네스(harness)의 통합이 AI 가치 사슬의 차별화 지점이고, 이 통합을 이루고 있는 곳은 현재 Anthropic과 OpenAI뿐이다(Google의 Gemini는 강한 모델이나 컬링 하네스 부재). 이는 Anthropic의 실질적 경쟁자가 기존 소프트웨어 기업 전체로 확장됨을 의미한다. 이미 명시적 경쟁자에게 은밀 개입을 보여준 Anthropic이, 향후 소프트웨어 기업들에게도 같은 행동을 할 가능성을 배제할 수 없다.

OpenAI와의 비교: OpenAI GPT 5.5가 이미 Opus 4.8보다 낫다는 평가도 나오는 상황에서, Thompson은 OpenAI가 현재 실재하는 리스크에 부합하는 안전 접근법과 개방성으로 차별화해야 한다고 주장. Anthropic 지지자들은 이를 '안전하지 않다'고 비판하겠지만, Thompson은 그 비판 자체가 Anthropic의 자기이익 정의와 맞닿아 있다고 본다.

AI IndustryFWIW — 구조 변화

AI 구독은 이제 5단계 — Apple 온디바이스부터 Anthropic 내부 Mythos까지

Stratechery · Ben Thompson · 2026-06-10 · 관련: $AAPL, Anthropic, OpenAI, WWDC 2026
💡 유레카 포인트

AI 티어 논의는 흔히 '무료 vs. 유료'의 이분법으로 단순화된다. 그러나 Thompson은 이미 5개 이상의 뚜렷한 층위가 형성됐다고 분석한다. 가장 주목할 층위는 맨 위 — Anthropic 내부 개발자들이 접근하는 풀 Mythos 모델이다. 이들은 Mythos를 활용해 자신들의 개발을 가속하고 있다고 공개적으로 밝히고 있다. 이것이 진정한 모랫속 비대칭이다: Anthropic은 경쟁자들에게는 Fable 5(이미 너프된 버전)를 팔면서, 내부적으로는 그보다 강력한 모델로 스스로를 가속하고 있다. 데이터 보관 의무화는 이 비대칭을 장기적으로 고착화하는 메커니즘이 될 수 있다.

Tier 1 — 온디바이스
$AAPL Siri AI, 개인 컨텍스트 챗봇 수준
Tier 2~3 — 무료~저가 유료
범용 AI 랩 이미지 생성 등 추가 기능
Tier 4 — 시리어스 구독/API
Pro/Max/Team 6/23 이후 크레딧 소모 방식
Tier 5 — Anthropic 내부
풀 Mythos 접근 자기 개발 가속화에 직접 활용

데이터 보관 조항의 잠재적 파장: Anthropic은 Mythos급 이상 모델 사용 시 모든 트래픽에 대해 30일 데이터 보관을 의무화한다고 발표했다. 현재는 안전 목적으로만 사용하며 모델 학습에 쓰지 않겠다고 명시. 그러나 Thompson은 시나리오를 제시한다: Anthropic의 기술 우위가 커질수록, 기업들은 설령 학습 데이터 활용 정책이 변경되더라도 Anthropic을 떠날 수 없게 된다. 이때 Anthropic이 조용히 학습 데이터 활용 정책을 바꾼다면, 그 데이터는 다시 Anthropic의 우위를 강화하는 선순환(Anthropic 입장에서)을 만든다.

Apple WWDC와의 연결: $AAPL이 WWDC에서 발표한 Siri AI 기반 온디바이스 인텔리전스는 AI 랩들의 무료 서비스와 경쟁하는 베이스라인 티어를 형성한다. 이는 AI 시장의 저가 진입장벽을 높이는 동시에, 유료 티어의 가치를 상대적으로 올리는 효과가 있다.

경쟁이 유일한 해법: Thompson의 결론은 명확하다. Anthropic의 관료화와 자기 이익 추구를 견제할 수 있는 것은 규제가 아니라 경쟁뿐이다. OpenAI가 Mythos/Fable 5를 능가하는 모델을 내놓는 것만이 Anthropic이 가장 자기 이익에 복무하는 충동을 억제하는 유일한 압력이다.

쉽게 풀어보기 — 가치 사슬과 통합
하네스(Harness)
AI 모델을 실제로 사용하기 좋게 감싸주는 도구·환경. Claude Code, Cursor 같은 코딩 에이전트가 대표적. 모델 자체가 아니라 모델을 어떻게 쓰느냐의 틀.
모듈화 vs. 통합 (Modular vs. Integrated)
부품들이 표준화돼 누구나 쉽게 교체할 수 있으면 모듈화 → 가격 경쟁 → 수익 감소. 부품들이 서로 맞물려 따로 뗄 수 없으면 통합 → 차별화 → 수익 집중. Apple이 하드웨어-소프트웨어 통합으로 PC/스마트폰 이익의 대부분을 가져가는 것이 전형적 사례.
재귀적 자기 개선(Recursive Self-Improvement)
AI가 스스로 더 나은 AI를 만들거나 자신을 개선하는 능력. 이 능력이 임계점을 넘으면 인간의 통제를 벗어난 폭발적 발전이 가능하다는 우려의 근거.