칩 하나로 다 하던 시대의 종언 — 학습과 추론, 완전히 갈라서다
Google은 TPU v8에서 학습용 8T와 추론용 8I를 완전히 별도 제품으로 출시했음. 단순히 칩 스펙만 다른 게 아니라 스케일업 네트워크 토폴로지, 메모리 구성, CPU 헤드 노드까지 워크로드 최적화가 스택 전체에 걸쳐 있음. "극단적 공동 설계(extreme co-design)"가 이제 데이터센터 레벨로 확장된 것임.
TPU 역사 맥락: TPU v1은 추론 전용, v2~v4는 학습·서빙 겸용, v6·v7은 다시 단일 칩(v7은 추론 마케팅). v8에서 처음으로 완전히 별도 시스템이 탄생함. Austin은 "하나가 모든 걸 한다 → 각자 다른 칩 → 각자 다른 네트워크"로의 전환이 핵심이라고 정리.
Axion CPU 헤드 노드: 두 칩 모두 Google의 Arm 기반 커스텀 CPU인 Axion을 호스트 CPU로 채택. 발표 블로그 인용: "데이터 전처리 지연으로 인한 호스트 병목을 제거했다. Axion은 복잡한 전처리와 오케스트레이션을 담당해 TPU가 계속 피드를 받고 멈추지 않게 한다." — x86 대비 Arm의 경쟁력이 엔터프라이즈 AI 인프라에서도 명확히 증명되는 국면.
"Never let a GPU stay idle. That's what it all comes down to."
앞으로의 질문: 학습과 추론 두 아키텍처가 영구히 고정될까, 아니면 에이전틱 워크로드·월드 모델 등 새 카테고리가 세 번째 SKU를 요구할까? 두 사람 모두 "아마 또 분기할 것"이라는 전망을 내놓음.