Sequoia Capital · 인터뷰MUST ASSET — 유튜브 매거진

모델이 하네스를 먹는다 — Google DeepMind가 말하는 에이전트 시대의 진짜 알파

Google AI Studio·Gemini API를 이끄는 Logan Kilpatrick이 에이전트 AI, 코딩 모델 경쟁, 세계 모델, GDM 문화까지 솔직하게 풀어낸 인터뷰

2025년 6월 11일출연: Logan Kilpatrick (Google DeepMind, AI Studio·Gemini API 총괄) · 테마: 에이전트 AI, 코딩 모델, 세계 모델(Omni), 스타트업 기회

3줄 요약

"모델이 하네스를 먹는다" — 지금 외부 에이전트 하네스를 쌓는 것이 알파라고 생각한다면, 12개월 내 모델이 그걸 내재화할 것이고, 알파는 다른 곳으로 이동함.
Google의 코딩 모델 경쟁력 부재 지적에 대해 Logan은 Windsurf 인수·Anti-Gravity 출시·Gemini 3.5 Flash의 post-training만으로 구 Pro 모델 능가를 근거로 반박하며, "pre-training 대형 런의 타이밍을 외부에서 보면 알 수 없다"고 설명.
에이전트 AI는 현재 Google 제품 수준에서 "크롤" 단계이나, Gemini App(Spark)·Anti-Gravity는 "워크" 수준에 근접 중. AI Studio에서 일주일 만에 Android 앱 35만 개 생성.

한눈에 — 다룬 종목·테마

테마	발언자	톤	핵심 한 줄
모델 eats 하네스	Logan Kilpatrick	Bearish on 하네스	12개월 내 모델이 내재화, 외부 하네스 알파 소멸 예상
Gemini 코딩 경쟁력	Logan Kilpatrick	Bullish	Anti-Gravity·3.5 Flash로 반격 중, "Avengers of AI" 팀 구성
에이전트 AI 현황	Logan Kilpatrick	중립	전사 제품은 크롤 단계, Gemini App·Anti-Gravity만 워크 수준
Gemini Omni / 세계 모델	Logan Kilpatrick	Bullish	단일 모델로 멀티모달 구현, 실시간 비디오 편집 데모
스타트업 기회	Logan Kilpatrick	Bullish	모델이 하네스를 먹어도 수직 도메인 집중 스타트업엔 기회 더 많아짐

에이전트 하네스 / 스캐폴딩Bearish on 하네스 독립성

"12개월 후엔 하네스를 직접 쌓는 것이 알파가 아닐 것" — 모델이 다 먹는다

Logan Kilpatrick · Google AI Studio 총괄 ·

💡 핵심 통찰

두 해 전 LLM은 그냥 "weights 덩어리"였지만, 지금 우리가 "Gemini 3.5"라고 부르는 것은 이미 tool calling·코드 실행·검색·컨테이너 스핀업까지 포함한 거대한 시스템이다. 스캐폴딩은 항상 모델보다 몇 스텝 앞서 있다가, 결국 모델이 그걸 흡수한다. 에이전트 하네스가 바로 지금 그 경계선에 있다.

무슨 얘기였나: 호스트가 "애플리케이션 회사들이 자체 하네스를 짜는 건 벤더 락인을 피하려는 것 아니냐"고 묻자, Logan은 "그게 지금은 맞는 말이지만, 모델 품질이 올라갈수록 점점 덜 맞는 말이 된다"고 답했다. 좋은 범용 모델이라면 어떤 하네스에도 적응할 수 있어야 하고, 그게 가능해지면 자체 하네스의 방어력은 사라진다는 논리.

그럼 알파는 어디로? 수직 도메인 전문성, 고객·생태계 이해, 빠른 실행력. 하네스 자체가 아니라 그 하네스로 무엇을 해결하느냐가 남는 것. Logan은 "harness bench"(모델이 각 하네스를 얼마나 잘 쓰는지 측정하는 벤치마크)가 생태계 차원에서 필요하다고 제안했다.

"스캐폴딩이 외부에 있는 것이 유리한 케이스도 물론 있어요. 검색이 좋은 예고, 코드 실행도 그렇죠. 하지만 에이전트 하네스만큼은 지금 모두가 '여기서 알파 나온다'고 생각하는데, 12개월 후엔 모델이 그 대부분을 소화해 버릴 것 같아요."

쉽게 풀어보기 — 하네스·스캐폴딩

에이전트 하네스(Agent Harness): AI 모델이 여러 툴(검색, 코드 실행, 파일 읽기 등)을 조율하며 멀티스텝 작업을 완수할 수 있게 해주는 실행 프레임워크. LangChain, 자체 오케스트레이션 레이어 등이 예시.
모델이 하네스를 먹는다: 외부 프레임워크에 구현되어 있던 기능(툴 호출, 메모리 관리 등)이 점차 모델 자체에 내장되면서, 별도 프레임워크 없이도 모델이 직접 처리하게 되는 현상.
스캐폴딩(Scaffolding): 모델 주변을 감싸는 프롬프트 엔지니어링, 툴 정의, 파이프라인 등 모든 부가 구조물. 모델 weights 외의 것.

Gemini 코딩 모델 / Anti-GravityBullish

Claude·Codex에 밀린다는 내러티브? "pre-training 런 타이밍을 모르면 그렇게 보이는 것"

Logan Kilpatrick ·

💡 핵심 통찰

코딩 모델을 잘 만들려면 실제로 코딩에 쓰이는 제품이 있어야 한다 — 이 피드백 루프가 없으면 아무리 좋은 연구팀도 한계가 있다. Google이 Windsurf를 인수하고 Anti-Gravity를 만든 이유가 바로 이것이다. Logan은 Gemini 3.5 Flash가 post-training 개선만으로 기존 Pro 모델을 코딩 성능에서 앞질렀다는 사실을 팀의 역량 증거로 제시했다.

AI Studio Android 앱 생성 수

350,000 출시 후 약 1주일 만에

Gemini 내부 토큰 소비 성장

급상승 추세 Sundar가 IO에서 그래프 공개

Gemini 3.5 Flash 포지셔닝

Flash 모델 최초로 구 Pro 모델 코딩 능가 post-training 개선만으로

배경: 호스트는 "내 개발자 친구들이 Claude와 Codex를 50/50으로 쓰는데, Gemini 얘기는 별로 못 들었다"고 직격했다. Logan은 이를 정면으로 부정하지 않으면서 두 가지 맥락을 제공했다.

첫째, 내러티브 사이클: 작년 12월 "Google이 이겼다"는 내러티브가 지배적이었으나, 연휴 시즌 아젠틱 코딩 붐이 일면서 순식간에 내러티브가 바뀌었다. Logan은 "그만큼 빠르게 돌아간다는 걸 기억해야 한다"고 말했다.

둘째, pre-training 런 타이밍: 대형 훈련 클러스터(수만 TPU 규모)의 가동 타이밍은 외부에서 보이지 않는다. 현재 조용해 보여도 대형 런이 진행 중일 수 있고, 그 결과물은 한 번에 터진다는 것.

Anti-Gravity 생태계: 코어 IDE, 웹 에이전트 경험, CLI, SDK를 모두 포함하는 개발자 생태계. Google 내부에서도 같은 하네스를 Search·Gemini App·Cloud·AI Studio에 적용 중. Logan 본인도 AI Studio에서 첫 Android 앱(정원 관리 앱)을 직접 만들었다고 밝혔다.

"내부적으로 이 팀을 'AI의 어벤져스'라고 부릅니다. 코딩 모델 하나를 정말 잘 만드는 건 다른 모든 비즈니스를 가속하는 엔진이 되거든요."

에이전트 AI 현황크롤 → 워크 이행 중

13억+ 사용자 제품엔 신중하게, 하지만 Gemini App·Anti-Gravity는 이미 워크 수준

Logan Kilpatrick ·

💡 핵심 통찰

에이전트화의 속도는 제품의 사용자 규모와 반비례한다. 대중 제품은 책임 때문에 느리게 가야 하고, 개발자 도구는 빠르게 가도 된다. Logan은 "성공의 척도가 '눈알 시간 최대화'가 아니라 '고객 아웃컴 최대화'로 바뀐다"는 점에서 검색 수익 잠식 우려를 일축했다.

크롤·워크·런 프레임으로 보면: 전체 Google 제품군은 지금 크롤. Gemini App(Spark)과 Anti-Gravity는 워크에 근접. GDM 연구 실험들이 런 영역 탐색 중.

왜 Search는 느린가: 130억+ 유저 제품에서 갑자기 AI가 모든 걸 해버리면 인터넷과의 관계, 제품 연상 자체가 뒤바뀐다. Logan은 "사람들을 끌어가는 것이지, 갑자기 바꾸는 게 아니다"라고 표현했다.

에이전트가 검색을 잠식하지 않는다: 예상과 달리 AI 답변 기능이 도입되면서 오히려 검색량이 증가했다. 에이전트도 검색하고, 인간도 더 많이 검색하는 positive sum 구도. 다만 3~5년 후는 예측이 어렵다고 인정.

Agent-Led Growth: 호스트가 제시한 개념으로, 코딩 에이전트가 인프라 선택을 대신 해준다 → 유저가 "어떤 DB든 알아서 골라줘"라고 하는 시대. Logan은 GEO(Generative Engine Optimization)가 SEO와 직접 상관관계가 있고, 이 트렌드도 비슷하게 작동할 것이라고 봤다.

Gemini Omni / 세계 모델Bullish

8개 모델을 하나로 — Omni는 "진짜 단일 모델"이고, 세계 모델의 정의 자체를 바꾼다

Logan Kilpatrick · Google IO 발표 내용 기반 ·

💡 핵심 통찰

기존엔 텍스트·오디오·음악·비디오 각각 별도 모델이었다. Omni는 이걸 단일 모델 하나로 처리한다. 라우팅이 아니다. 이게 가능해지면 "세계 모델"의 정의가 "action-conditioned 비디오 모델"에서 "세계를 이해하는 범용 멀티모달 모델"로 넘어간다.

시연 사례: Logan이 무대에서 발표 중일 때, 청중이 Omni로 실시간 이미지를 편집 — 무대 위에 개가 등장하고, 다른 게스트들이 자연스럽게 개를 보고 웃는 장면이 삽입됐다. 단순 합성이 아니라 조명·시선·반응까지 세계 이해를 반영한 편집이라는 점이 인상적이었다고.

현재 제공 범위: 지금 공개된 기능은 비디오 편집. 다른 modality는 기술적으론 작동하지만 품질이 SOTA 수준에 못 미쳐 미출시 상태. "Omni Flash 첫 번째 크랭크"라고 표현 — 더 강력한 버전이 뒤따를 것.

세계 모델 vs 코딩 에이전트, 게임에선? Logan의 결론은 단기(2025)엔 코딩 에이전트 + 게임 엔진, 장기(2년+)엔 Omni 계열 세계 모델이 게임 제작을 직접 담당할 가능성. 현재 세계 모델은 "오픈엔디드 공간"의 특성상 반복·재사용 가능한 게임 경험 만들기에 아직 부적합.

콘텐츠 철학: Logan은 "나는 내 AI 콘텐츠에 AI를 안 쓴다 — 내 말, 내 얼굴이 알파"라고 했다. Omni가 마음에 드는 이유는 "나를 바꾸는 게 아니라 나를 둘러싼 비인격적 요소들을 바꾸기 때문"이라고.

스타트업 기회 / GDM 문화Bullish on 스타트업

"모델이 하네스를 먹어도 기회는 오히려 더 많아졌다" — 포커스가 스타트업의 슈퍼파워

Logan Kilpatrick ·

💡 핵심 통찰

"2년 전엔 다들 '스타트업 기회가 줄어드는 거 아니냐'고 걱정했는데, 실제로는 정반대였다." Logan의 결론은 수직 도메인 집중 + 도메인 전문성 + 빠른 실행이 여전히 (혹은 더욱) 유효하다는 것. 빅테크는 13억 유저 제품이 있어서 하나에 집중할 수 없고, 스타트업은 집중할 수 있다.

Capability Overhang: 모델이 할 수 있는 것과 실제 제품에 적용된 것 사이의 갭. 여기서 스타트업 알파가 나온다. 모델이 점점 더 많은 걸 할 수 있게 되면, 그 역량을 실제 도메인에 착지시키는 작업은 아직 대부분 미개척.

GDM 문화: Demis Hassabis를 중심으로 "과학적 접근"이 DNA에 박혀 있다. Logan이 인상적으로 언급한 구조 — Demis(Nobel 수상 과학자형), Sam Altman(세계 최고 비즈니스맨형), Dario Amodei(다소 난해한 에소테릭형) — 각 CEO의 성격이 회사 문화로 그대로 전이된다는 관찰.

Sergey·Noam Shazeer 귀환: 호스트가 언급했고 Logan도 분위기를 확인. "지금 GDM에 있다는 게 믿기지 않을 만큼 쿨한 순간"이라고 표현.

Vibe Coding 게임 예측: 2024년 10월 트윗 "2025년 안에 누구나 게임을 vibe code할 수 있게 된다"는 예측에 대해 Logan은 "거의 맞다. 모델 품질 갭은 없고, 제품 스캐폴딩 갭이 있다. 그 갭을 메우는 스타트업이 지금 작업 중"이라고 업데이트했다.

"가장 좋아하는 실리콘밸리 명언이요? '우리는 다른 사람들이 세상을 더 좋게 만드는 걸 내버려둘 수 없다.' — Gavin Belson 명언인데, 그걸 생각할 때마다 웃음이 나요. 우리 다 세상을 더 좋게 만들려고 싸우고 있잖아요. 그게 제로섬이 아니라는 게 핵심이에요."

쉽게 풀어보기 — Capability Overhang

Capability Overhang: 모델이 기술적으로 이미 할 수 있지만, 아직 제대로 된 제품/UX/워크플로우가 없어서 활용되지 못하고 있는 역량의 잉여분. 이 갭을 먼저 채우는 제품이 빠른 성장을 가져감.
Vibe Coding: 코드를 직접 짜지 않고 자연어로 아이디어를 말하면 AI가 코드를 생성·실행해 완성하는 개발 방식. "분위기(vibe)만 전달해도 된다"는 의미.
GEO (Generative Engine Optimization): AI 검색 엔진에서 콘텐츠가 잘 인용·노출되도록 최적화하는 전략. 기존 SEO의 AI 버전.