"12개월 후엔 하네스를 직접 쌓는 것이 알파가 아닐 것" — 모델이 다 먹는다
두 해 전 LLM은 그냥 "weights 덩어리"였지만, 지금 우리가 "Gemini 3.5"라고 부르는 것은 이미 tool calling·코드 실행·검색·컨테이너 스핀업까지 포함한 거대한 시스템이다. 스캐폴딩은 항상 모델보다 몇 스텝 앞서 있다가, 결국 모델이 그걸 흡수한다. 에이전트 하네스가 바로 지금 그 경계선에 있다.
무슨 얘기였나: 호스트가 "애플리케이션 회사들이 자체 하네스를 짜는 건 벤더 락인을 피하려는 것 아니냐"고 묻자, Logan은 "그게 지금은 맞는 말이지만, 모델 품질이 올라갈수록 점점 덜 맞는 말이 된다"고 답했다. 좋은 범용 모델이라면 어떤 하네스에도 적응할 수 있어야 하고, 그게 가능해지면 자체 하네스의 방어력은 사라진다는 논리.
그럼 알파는 어디로? 수직 도메인 전문성, 고객·생태계 이해, 빠른 실행력. 하네스 자체가 아니라 그 하네스로 무엇을 해결하느냐가 남는 것. Logan은 "harness bench"(모델이 각 하네스를 얼마나 잘 쓰는지 측정하는 벤치마크)가 생태계 차원에서 필요하다고 제안했다.
"스캐폴딩이 외부에 있는 것이 유리한 케이스도 물론 있어요. 검색이 좋은 예고, 코드 실행도 그렇죠. 하지만 에이전트 하네스만큼은 지금 모두가 '여기서 알파 나온다'고 생각하는데, 12개월 후엔 모델이 그 대부분을 소화해 버릴 것 같아요."
쉽게 풀어보기 — 하네스·스캐폴딩
- 에이전트 하네스(Agent Harness)
- AI 모델이 여러 툴(검색, 코드 실행, 파일 읽기 등)을 조율하며 멀티스텝 작업을 완수할 수 있게 해주는 실행 프레임워크. LangChain, 자체 오케스트레이션 레이어 등이 예시.
- 모델이 하네스를 먹는다
- 외부 프레임워크에 구현되어 있던 기능(툴 호출, 메모리 관리 등)이 점차 모델 자체에 내장되면서, 별도 프레임워크 없이도 모델이 직접 처리하게 되는 현상.
- 스캐폴딩(Scaffolding)
- 모델 주변을 감싸는 프롬프트 엔지니어링, 툴 정의, 파이프라인 등 모든 부가 구조물. 모델 weights 외의 것.