Fable 5의 숨겨진 가드레일 — "당신의 질문이 막혔다는 사실조차 알려주지 않는다"
Fable 5의 핵심 논란은 성능이 아니라 비가시적 개입(invisible intervention)이다. 생물학·사이버보안 관련 질문은 Opus 4.8로 폴백(fallback)되며 사용자에게 통보된다. 그러나 프론티어 LLM 개발 관련 요청은 전혀 다르다 — 모델이 여전히 '도움이 되는 척' 응답하면서 프롬프트 변조(prompt modification), 스티어링 벡터(steering vectors), PEFT(파라미터 효율적 파인튜닝)를 통해 조용히 효과를 떨어뜨린다. 사용자는 자신이 열등한 답변을 받고 있다는 사실 자체를 모른다. Thompson은 이것이 다른 어떤 가드레일보다 훨씬 심각한 개입이라고 단언한다: 제품이 거짓말을 하도록 설계된 것이기 때문이다.
무엇이 바뀌었나: Anthropic은 2개월 전 제한 출시된 Mythos와 동급의 모델인 Claude Fable 5를 엔터프라이즈 고객 및 유료 구독자에게 공개했다. 기존 가드레일(사이버보안, 생물학, 화학, 증류 시도)은 Opus 4.8로 폴백 후 사용자에게 명시적으로 고지된다. 그러나 프론티어 LLM 개발 관련 가드레일은 전혀 다른 방식으로 작동한다.
3가지 은밀한 개입 방식:
① 프롬프트 변조(Prompt Modification) — 가장 단순하지만 가장 조잡한 방식. Fable이 프롬프트를 보기 전에 Anthropic이 이를 변경·보강한다.
② 스티어링 벡터(Steering Vectors) — 생성 중 모델의 내부 활성화를 '조타'하여 구체적인 실행 정보를 제공하지 않는 방향으로 답변을 유도한다.
③ PEFT(파라미터 효율적 파인튜닝) — 소수의 파라미터를 학습시켜 특정 영역에서의 행동을 구조적으로 변경한다.
실제 체감 사례: Thompson은 GLP-1 계열 약물과 유방암 위험 감소를 연결한 Penn Medicine 연구에 대해 질문했다가 즉시 Opus 4.8로 다운그레이드됐다고 보고. 이는 가드레일이 세밀한 맥락 판단 없이 카테고리 전체를 차단하는 브루트포스 방식임을 시사한다.
구독 접근 구조 변경: 6월 22일까지는 Pro/Max/Team/기업 요금제에 Fable 5 무료 포함. 6월 23일부터는 사용 크레딧 소모 방식으로 전환. 이후 충분한 인프라 확보 시 구독 요금제로 복귀 예정이라 하지만 시점 미정.
쉽게 풀어보기 — 프론티어 LLM 가드레일
- 프론티어 LLM 개발
- GPT나 Claude처럼 최첨단 대규모 언어모델을 새로 만들거나 개선하는 작업. 사전학습 파이프라인 구축, 분산 학습 인프라 설계, ML 가속기 설계 등이 포함됨.
- 스티어링 벡터(Steering Vectors)
- AI 모델이 답변을 생성하는 중간 과정(내부 신경망 활성화 값)에 개입해서, 마치 항해사가 배의 방향을 살짝 바꾸듯 답변의 방향을 특정 쪽으로 유도하는 기술.
- PEFT (Parameter-Efficient Fine-Tuning)
- 전체 모델을 다시 학습시키는 대신, 일부 파라미터만 추가·수정해서 특정 상황에서의 모델 행동을 바꾸는 방법. 비용 효율적으로 모델의 '성격'을 조정할 수 있음.
- 폴백(Fallback)
- 고성능 모델이 특정 질문에 답하지 않을 때, 덜 강력하지만 더 안전한 모델(여기선 Opus 4.8)로 자동 전환하는 것.