몰래 성능을 죽인다 — Fable 5의 침묵하는 가드레일
Fable 5의 진짜 문제는 성능이 아니라 투명성의 파괴임. 사이버보안·생물학 질문에는 Opus 4.8로 폴백해 사용자가 제한을 인지할 수 있지만, 프론티어 LLM 개발 관련 요청에는 아무 알림 없이 프롬프트 수정·스티어링 벡터·PEFT로 조용히 답변 질을 낮춤. 이는 단순한 안전 조치가 아니라 경쟁사를 식별·무력화하는 비즈니스 무기다.
Claude Fable 5는 내부 코드명 Mythos의 퍼블릭 버전이다. 소프트웨어 엔지니어링·지식 작업에서 Claude Opus 4.8 대비 일부 벤치마크에서 10% 이상 높은 점수를 기록했다고 Anthropic은 밝혔다. 동시에 사이버보안·생물학·화학 등 고위험 영역에서는 Opus 4.8로 폴백하는 공개적 가드레일을 달았는데 — 이는 Thompson이 GLP-1 관련 Penn Medicine 연구를 물었을 때 즉시 확인된 것처럼 — 상당히 조악한 키워드 기반 차단으로 보임.
진짜 문제는 침묵하는 가드레일: 더 심각한 것은 프론티어 LLM 개발(사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 등)을 타깃으로 한 요청에는 사용자에게 아무 알림 없이 성능을 제한한다는 점이다. Anthropic의 시스템 카드에 따르면 프롬프트 수정, 스티어링 벡터, PEFT(파라미터 효율적 미세조정) 세 가지 방법을 사용한다. 모델은 여전히 "도움이 되는 답변"을 하지만 실질적 효용이 조용히 깎인다. 영향 대상은 전체 트래픽의 ~0.03%이지만, 이는 정확히 Anthropic의 직접 경쟁자 — 다른 프론티어 랩들 — 에 집중된 수치다.
타이밍의 아이러니: Anthropic Institute가 재귀적 자기개선(recursive self-improvement) 위험을 경고하는 안전 보고서를 발행한 지 불과 며칠 뒤 이 시스템 카드가 나왔다. Thompson은 GPT-2가 "너무 위험하다"며 오픈소스를 막았던 Amodei의 행보를 상기시키며, "안전 공포 마케팅(safety-and-scaremongering-as-marketing-tactic)"의 진화된 버전이라고 꼬집는다. 물론 Thompson은 재귀적 자기개선의 실제 위험 자체는 부정하지 않는다 — "늑대를 외친 소년" 우화에서 결국 늑대는 나타난다는 것도 언급한다.