Altimeter Capital · 파운더 스포트라이트 인터뷰MUST ASSET — 유튜브 매거진

GPT 논문 공저자가 구글을 떠난 이유: AI는 아직 6살짜리 시각 추론도 못 한다

Elorian 공동창업자 Andrew Dai — 멀티모달 추론이 다음 AI 병목인 이유, 그리고 Visual AGI를 만들겠다는 선언

2025년 4월 9일출연: Andrew Dai (Elorian 공동창업자, 前 Google Brain) · 테마: 멀티모달 추론 / Visual AGI / AI 벤치마크 / 스타트업 vs 대형 랩

3줄 요약

현재 최고 수준의 AI 모델도 Baby Vision 벤치마크 기준 6살 아이의 시각 추론에 미치지 못함 — 텍스트 중심 AI의 근본적 한계를 보여주는 수치.
Elorian은 이미지·영상·센서 데이터에서 언어로 변환하지 않고 시각 공간에서 직접 추론하는 파운데이션 모델을 개발 중 — 엔지니어링·로보틱스·위성 이미지 분석 등이 주 타겟.
GPT 사전학습 논문 공저, Palm 2 사전학습 리드, Gemini 데이터 총괄을 거친 14년 구글 경력의 파운더가 직접 "전문화된 소형 모델"로 대형 랩의 멀티모달 트레이드오프를 치고 들어가겠다는 전략.

한눈에 — 다룬 테마

종목/테마	발언자	톤	핵심 한 줄
Visual AGI / 멀티모달 추론	Andrew Dai	Bullish	언어에만 집중된 AI의 공백 — 시각 추론이 다음 프론티어
Baby Vision 벤치마크	Andrew Dai	중립	현 최고 모델들도 6살 수준 미달 — ARC-AGI와 체감 격차
데이터 전략 & 트레이드오프	Andrew Dai	중립	데이터는 최적화 문제가 아니라 통계 문제 — 더 많이 넣는다고 좋아지지 않음
프리트레이닝 vs 포스트트레이닝	Andrew Dai	Bullish	지금은 포스트트레이닝부터, 팀은 이미 풀스택 프리트레이닝 역량 보유
재귀적 자기개선 (Recursive Self-improvement)	Andrew Dai	Bullish	멀티모달은 코딩과 물리 세계의 중간 — 검증 가능성 + 빠른 사이클 확보 가능

Visual AGI / ElorianBullish

인간은 머릿속으로 그림을 그리며 생각한다 — AI는 아직도 텍스트만 쓴다

Andrew Dai · Elorian 공동창업자 ·

💡 핵심 통찰

현재 LLM의 추론은 언어 공간에만 머물러 있다. 하지만 인간의 고차원 사고 — 건축 설계, 복잡한 시스템 다이어그램, 로켓 엔지니어링 — 는 모두 시각적 표상을 동반한다. Elorian은 이미지·영상 입력을 텍스트로 변환하지 않고 시각 공간에서 직접 추론하는 모델을 만들겠다는 것이 핵심 차별점이다.

왜 구글을 나왔나: Andrew Dai는 Google Brain이 40명 규모이던 2014~2015년에 합류해, 언어 모델 사전학습과 지도 파인튜닝을 다룬 논문(GPT의 토대가 된 2015년 논문), Smart Reply·Smart Compose, GLAM(최초로 GPT-3과 경쟁력 있는 mixture-of-experts LLM), Palm 2 사전학습 리드, Gemini 데이터 총괄을 거쳤다. 그 과정에서 확인한 것은 하나 — 텍스트 추론(chain-of-thought)이 크게 발전해도, 모델은 여전히 "chain-of-thought이 맞아도 답이 틀리고, 틀려도 답이 맞는" 비인간적 오류를 범한다는 것.

World Model 회사들과의 차이: Physical Intelligence, World Labs 같은 세계 모델 기업이 로보틱스·엔터테인먼트 중심으로 물리 세계 시뮬레이션에 집중한다면, Elorian은 파운데이션 모델 접근법을 택한다. 시각 인식에 그치는 게 아니라 언어-이미지-물리 세계를 매끄럽게 연결한 추론을 목표로 한다. "로봇 팔을 5cm 짧게 만들면 자유도는 줄지만 에너지를 아낄 수 있다"는 식의 시각-언어 복합 추론이 목표.

어디에 쓰이나: 엔지니어링(항공기 날개 설계 등 순수 코드로 표현 불가한 물리 세계), 로보틱스(공장 제어판 앞 상황 판단), 금융 차트 분석, 산불 위성 이미지 감지 등. Dai는 "지금 이 모든 산업이 시각 추론 AI의 부재로 노동 집약적인 상태에 묶여 있다"고 표현했다.

"현실 세계는 언어라는 1차원 축 위에서 돌아가지 않는다. 3차원 세계다. 그 세계에서 실제로 작동하는 무언가를 만들려면, 물리 법칙을 이해하고 그것을 인간의 언어·개념과 연결하는 능력이 필요하다."

쉽게 풀어보기 — 멀티모달 추론이란?

멀티모달(Multimodal): 텍스트만이 아니라 이미지, 영상, 센서 데이터 등 여러 형태의 입력을 함께 처리하는 것
시각 공간에서의 추론: 이미지를 텍스트로 변환한 뒤 언어 모델이 추론하는 기존 방식 대신, 이미지·영상 정보 자체를 표상으로 삼아 추론하는 방식. 독수리가 참새의 비행 궤적을 시각적으로 예측하는 것과 유사한 개념
파운데이션 모델: 특정 작업 하나가 아니라, 광범위한 문제를 풀 수 있도록 대규모 데이터로 사전학습한 범용 기반 모델

Baby Vision 벤치마크Bearish — 현 모델 수준

최고 AI 모델들, 6살 아이의 시각 추론 수준에도 못 미친다

Andrew Dai · Elorian ·

💡 핵심 통찰

ARC-AGI에서 좋은 성적을 내는 모델도 Baby Vision 기준으로는 6살 아이 수준에 미치지 못한다. ARC-AGI가 픽셀 그리드 기반의 소규모 패턴 인식 문제인 반면, Baby Vision은 실제 물리 세계의 시각적 이해를 측정하기 때문. 이 격차가 Elorian이 존재하는 이유다.

Baby Vision 기준 현 최고 모델 수준

6살 미만 (3·6·9·12세 단계 평가)

Baby Vision이란: 3세·6세·9세·12세 어린이의 인지 수준을 모사한 시각 추론 벤치마크. Dai는 "현 모델들은 6살 수준도 아직 달성하지 못했다"고 명시했다. 인간 성인 수준의 시각 추론까지는 아직 갈 길이 멀다는 의미.

ARC-AGI와의 간극: ARC-AGI 결과만 보면 AI 시각 추론이 꽤 발전한 것처럼 보이지만, 해당 벤치마크는 픽셀 그리드 기반 소규모 패턴 인식으로, 인간 눈의 해상도나 실제 세계 문제와는 거리가 멀다는 게 Dai의 평가.

벤치마크 자체도 계속 갱신해야 한다: Dai는 "같은 벤치마크를 계속 쓰면 의도적이든 아니든 벤치마크 오염이 불가피하다. 적어도 매년 새 벤치마크를 만들고 오래된 것에는 만료 기한을 설정해야 한다"고 주장했다. Elorian도 자체 eval을 공개할 계획.

"6 곱하기 9가 뭔지를 학습 데이터에서 지운다고 모델이 더 공정하게 평가될까요? 지금 우리가 쓰는 벤치마크 중 일부는 ChatGPT가 나오기 전에 만들어진 것들입니다."

데이터 전략중립 — 핵심 인사이트

데이터를 더 쏟아붓는다고 모델이 좋아지지 않는다 — 분포의 문제다

Andrew Dai · 前 Gemini 데이터 총괄 ·

💡 핵심 통찰

대형 랩에서는 데이터셋을 추가하고 제거하는 결정을 매일 내린다. 어떤 데이터를 더하면 일부 지표는 오르고 다른 지표는 내려간다. Dai는 이를 통계 문제로 접근한다 — 개별 샘플이 맞고 틀리고가 아니라 전체 분포(distribution)의 효과를 봐야 한다는 것. 이것이 Gemini에서 쌓은 핵심 관점.

대형 랩의 트레이드오프: 범용 소비자 모델은 모든 유스케이스를 만족해야 하기 때문에, 데이터 믹스처를 어느 한 방향으로 최적화하면 다른 능력이 희생된다. Elorian처럼 시각 추론에 특화한 모델은 "1800년대 어떤 전투가 있었나" 같은 일반 상식 데이터 비중을 낮추고, 그 자원을 멀티모달 capability에 집중할 수 있다.

멀티모달 데이터의 현실적 어려움: 텍스트는 저렴하고, 정규표현식으로 필터링 가능하며, 토큰화하기 쉽다. 반면 이미지·영상 데이터는 용량이 크고 처리 비용이 높으며, 품질 필터링 도구 자체가 아직 미성숙하다. Dai는 "멀티모달 데이터셋은 regex로 걸러낼 수 없다"며, 이 영역의 데이터 처리 기술 자체가 앞으로 더 개발되어야 한다고 강조했다.

아키텍처도 마찬가지: Dai는 데이터를 통계 문제로, 아키텍처·최적화를 최적화 문제로 구분해 접근한다. Mixture-of-Experts 구조가 멀티모달 데이터를 잘 처리할 수 있는지는 아직 연구가 부족한 영역이라고 짚었다.

프리트레이닝 vs 포스트트레이닝Bullish — Elorian 전략

지금은 포스트트레이닝부터 — 그러나 팀은 이미 풀스택

Andrew Dai · Elorian ·

💡 핵심 통찰

Cursor 논란처럼 "자체 프리트레이닝이냐 오픈소스 파인튜닝이냐"가 AI 스타트업의 화두가 됐다. Elorian은 지금 단계에서는 포스트트레이닝이 효과적임을 확인했고, 이미 시각 추론 향상의 신호를 보고 있다. 단, 장기적 성능 극대화를 위해 프리트레이닝이 필요하다는 것도 인지하고 있으며, 팀 역량은 이미 준비돼 있다는 입장.

왜 지금 서두르지 않나: 프리트레이닝을 제대로 하려면 데이터 준비, 데이터 소싱, 모델 아키텍처 최적화에 매우 세심한 접근이 필요하다. Dai는 "무작정 서두를 필요 없다. 나중에 할 것이고, 팀은 이미 수십 년의 프리트레이닝 경험을 갖고 있다"고 밝혔다.

팀 구성 철학: 대형 랩에서는 프리트레이닝·포스트트레이닝·모델 아키텍처·데이터가 각각 다른 팀으로 분리돼 있어, 한 사람이 전체 스택을 볼 수 없다. Elorian은 풀스택 접근을 택한다. 새로운 이미지 추론 데이터가 RL 리워드 설계나 MoE 아키텍처와 맞물려야 효과를 발휘하기 때문에, end-to-end 시각이 필수라는 판단.

재귀적 자기개선Bullish — 멀티모달 가능성

멀티모달은 코딩과 물리 세계의 중간 — 자기개선 AI의 다음 스텝

Andrew Dai · Elorian ·

💡 핵심 통찰

재귀적 자기개선(모델이 스스로 문제를 만들고 검증하며 발전)이 가능하려면 두 가지 조건이 필요하다: 검증 가능성(정답을 확실히 알 수 있는가)과 빠른 피드백 사이클. 코딩은 두 조건을 모두 만족하기에 먼저 발전했다. 멀티모달 영역은 두 조건을 부분적으로 만족하여 물리 세계(로보틱스)보다 훨씬 유리한 위치에 있다.

코딩 vs 로보틱스 vs 멀티모달: 코딩은 테스트로 검증 가능하고 실행 속도가 빠르다. 로보틱스는 실제 하드웨어가 필요해 제조·조립 시간이 걸린다. 멀티모달은 그 중간 — 문제를 설계하는 방식에 따라 검증 가능하고, 물리 세계를 완전히 거치지 않아도 되므로 사이클이 빠르다.

Dai는 이를 "물리 세계를 향한 재귀적 자기개선으로 가는 디딤돌(stepping stone)"로 표현했다.