인간은 머릿속으로 그림을 그리며 생각한다 — AI는 아직도 텍스트만 쓴다
현재 LLM의 추론은 언어 공간에만 머물러 있다. 하지만 인간의 고차원 사고 — 건축 설계, 복잡한 시스템 다이어그램, 로켓 엔지니어링 — 는 모두 시각적 표상을 동반한다. Elorian은 이미지·영상 입력을 텍스트로 변환하지 않고 시각 공간에서 직접 추론하는 모델을 만들겠다는 것이 핵심 차별점이다.
왜 구글을 나왔나: Andrew Dai는 Google Brain이 40명 규모이던 2014~2015년에 합류해, 언어 모델 사전학습과 지도 파인튜닝을 다룬 논문(GPT의 토대가 된 2015년 논문), Smart Reply·Smart Compose, GLAM(최초로 GPT-3과 경쟁력 있는 mixture-of-experts LLM), Palm 2 사전학습 리드, Gemini 데이터 총괄을 거쳤다. 그 과정에서 확인한 것은 하나 — 텍스트 추론(chain-of-thought)이 크게 발전해도, 모델은 여전히 "chain-of-thought이 맞아도 답이 틀리고, 틀려도 답이 맞는" 비인간적 오류를 범한다는 것.
World Model 회사들과의 차이: Physical Intelligence, World Labs 같은 세계 모델 기업이 로보틱스·엔터테인먼트 중심으로 물리 세계 시뮬레이션에 집중한다면, Elorian은 파운데이션 모델 접근법을 택한다. 시각 인식에 그치는 게 아니라 언어-이미지-물리 세계를 매끄럽게 연결한 추론을 목표로 한다. "로봇 팔을 5cm 짧게 만들면 자유도는 줄지만 에너지를 아낄 수 있다"는 식의 시각-언어 복합 추론이 목표.
어디에 쓰이나: 엔지니어링(항공기 날개 설계 등 순수 코드로 표현 불가한 물리 세계), 로보틱스(공장 제어판 앞 상황 판단), 금융 차트 분석, 산불 위성 이미지 감지 등. Dai는 "지금 이 모든 산업이 시각 추론 AI의 부재로 노동 집약적인 상태에 묶여 있다"고 표현했다.
"현실 세계는 언어라는 1차원 축 위에서 돌아가지 않는다. 3차원 세계다. 그 세계에서 실제로 작동하는 무언가를 만들려면, 물리 법칙을 이해하고 그것을 인간의 언어·개념과 연결하는 능력이 필요하다."
쉽게 풀어보기 — 멀티모달 추론이란?
- 멀티모달(Multimodal)
- 텍스트만이 아니라 이미지, 영상, 센서 데이터 등 여러 형태의 입력을 함께 처리하는 것
- 시각 공간에서의 추론
- 이미지를 텍스트로 변환한 뒤 언어 모델이 추론하는 기존 방식 대신, 이미지·영상 정보 자체를 표상으로 삼아 추론하는 방식. 독수리가 참새의 비행 궤적을 시각적으로 예측하는 것과 유사한 개념
- 파운데이션 모델
- 특정 작업 하나가 아니라, 광범위한 문제를 풀 수 있도록 대규모 데이터로 사전학습한 범용 기반 모델