Semi Doped · 팟캐스트MUST ASSET — 유튜브 매거진

컴퓨팅의 병목은 칩이 아니다 — Google TPU v8과 네트워킹 혁명

학습과 추론을 칩부터 네트워크까지 완전히 분리 설계한 Google의 "10년에 한 번 오는 전환점"을 파헤친 기술 심층 강의

3줄 요약

  1. Google은 TPU v8을 학습(8T)·추론(8I) 두 칩으로 분리하고, 칩 아키텍처뿐 아니라 스케일업 네트워크 토폴로지까지 워크로드별로 달리 설계했음.
  2. 추론칩 8I는 SRAM 384MB(학습칩 대비 3배)를 탑재해 저지연 디코딩에 최적화, 학습칩 8T는 HBM 216GB로 "필요 이상의 비싼 메모리를 쓰지 않는다"는 철학을 명시함.
  3. 신규 Virgo 백엔드 네트워크는 전면 OCS(광회로 스위칭) 기반 2계층으로 재설계, 총 대역폭을 13.1 → 47 페타비트/초로 약 4배 끌어올림.
한눈에 — 다룬 종목·테마
종목/테마발언자핵심 한 줄
TPU 8T / 8I 분리Vic ShaykerBullish워크로드별 칩 분화, 극단적 공동 설계의 시대 개막
메모리 아키텍처 (SRAM/HBM)Vic ShaykerBullish추론칩 SRAM 3배 탑재, Groq LPU 전략의 Google판
Virgo 메가스케일 네트워크Vic ShaykerBullishOCS 2계층으로 47 페타비트/초, 134,000 TPU 단일 컴퓨터化
3D 토러스 vs 보드플라이Vic Shayker중립학습=토러스, 추론(MoE)=보드플라이, 홉 16→7로 절반 이상 감소
OCS · 광회로 스위칭Vic ShaykerBullish선택지에서 필수 인프라로, Lumentum·Coherent 등 수혜 구도
CAE (Collectives Acceleration Engine)Austin Lyons중립AllReduce 등 집합 통신을 전담 칩렛으로 오프로드, Nvidia SHARP 유사
TPU v8 (8T / 8I)Bullish

칩 하나로 다 하던 시대의 종언 — 학습과 추론, 완전히 갈라서다

Vic Shayker · Google Cloud Next 2026 키노트 분석 · 관련: TPU 역사, 워크로드 특화 설계
💡 핵심 통찰

Google은 TPU v8에서 학습용 8T와 추론용 8I를 완전히 별도 제품으로 출시했음. 단순히 칩 스펙만 다른 게 아니라 스케일업 네트워크 토폴로지, 메모리 구성, CPU 헤드 노드까지 워크로드 최적화가 스택 전체에 걸쳐 있음. "극단적 공동 설계(extreme co-design)"가 이제 데이터센터 레벨로 확장된 것임.

TPU 역사 맥락: TPU v1은 추론 전용, v2~v4는 학습·서빙 겸용, v6·v7은 다시 단일 칩(v7은 추론 마케팅). v8에서 처음으로 완전히 별도 시스템이 탄생함. Austin은 "하나가 모든 걸 한다 → 각자 다른 칩 → 각자 다른 네트워크"로의 전환이 핵심이라고 정리.

Axion CPU 헤드 노드: 두 칩 모두 Google의 Arm 기반 커스텀 CPU인 Axion을 호스트 CPU로 채택. 발표 블로그 인용: "데이터 전처리 지연으로 인한 호스트 병목을 제거했다. Axion은 복잡한 전처리와 오케스트레이션을 담당해 TPU가 계속 피드를 받고 멈추지 않게 한다." — x86 대비 Arm의 경쟁력이 엔터프라이즈 AI 인프라에서도 명확히 증명되는 국면.

"Never let a GPU stay idle. That's what it all comes down to."

앞으로의 질문: 학습과 추론 두 아키텍처가 영구히 고정될까, 아니면 에이전틱 워크로드·월드 모델 등 새 카테고리가 세 번째 SKU를 요구할까? 두 사람 모두 "아마 또 분기할 것"이라는 전망을 내놓음.

TPU 8I 메모리 아키텍처Bullish

추론칩에 SRAM 384MB — Groq 전략을 Google이 따라간다

Vic Shayker · Austin Lyons · 관련: Groq LPU, Rainer Pope (Matrox), HBM 시장
💡 핵심 통찰

추론칩 8I의 SRAM은 384MB로 학습칩 8T(약 128MB 수준)의 3배. 이는 가중치(weights)를 SRAM에 올리고 KV 캐시를 HBM에 두는 "저지연 디코딩 최적화" 전략의 구현. HBM도 8I가 288GB로 학습칩 8T의 216GB보다 많음. 반면 학습 칩은 HBM이 오히려 적다 — "클러스터 단위로 GPU를 더 붙이면 총 메모리는 늘어나니 칩 한 장에 비싼 HBM을 과잉 탑재할 이유가 없다"는 논리.

8I SRAM
384 MB (학습칩 대비 3×)
8I HBM
288 GB
8T HBM
216 GB

무슨 얘기였나: Vic은 Groq의 LPU가 사실상 SRAM 덩어리인 구조를 언급하며, 384MB SRAM이라는 수치가 "빠른 디코딩을 원한다면 최대한 많은 SRAM을 때려 박는다"는 업계 트렌드의 Google 버전이라고 설명. Nvidia가 메모리 계층 발표 때 SRAM을 Tier 0으로 명시하지 않았던 것과 대비해 Google이 명시적으로 이 계층을 최대화한 점을 강조.

왜 학습칩에는 HBM이 더 적나: 학습은 칩을 많이 붙여 클러스터 전체 메모리를 늘리는 방식으로 스케일하기 때문에, 칩 한 장당 비싼 HBM을 극대화할 인센티브가 낮음. "범용 GPU 한 장에 학습·추론 다 하려면 HBM을 과잉 탑재해야 하는데, Google은 그 비용을 아낀 셈"이라고 Austin은 지적.

Rainer Pope 연결점: Austin은 Matrox의 Rainer Pope 인터뷰에서 "가중치는 SRAM, KV 캐시는 HBM"이라는 아키텍처 결정을 언급한 것과 정확히 같은 방향임을 짚음.

쉽게 풀어보기 — SRAM vs HBM
SRAM (Static RAM)
초고속이지만 면적당 비용이 매우 높은 온칩 메모리. 레이턴시가 극히 낮아 AI 추론의 디코딩 단계에서 가중치를 올려두면 토큰 생성 속도가 크게 빨라짐.
HBM (High Bandwidth Memory)
칩 옆에 3D 적층하는 고대역폭 메모리. SRAM보다 느리지만 용량 대비 비용이 낮아 KV 캐시(컨텍스트 저장) 등 대용량 데이터를 담는 데 적합.
Virgo 메가스케일 네트워크Bullish

Jupiter 시대의 종말 — 47 페타비트/초, 캠퍼스 전체가 하나의 컴퓨터

Vic Shayker · 관련: OCS, Lumentum, Coherent, Jupiter 네트워크
💡 핵심 통찰

인터넷 시대를 위해 설계된 Clos(클로) 계층 구조의 Jupiter 네트워크는 AI 시대에 근본적으로 부적합함. AI 학습은 수십만 칩이 동기적으로 통신하는 "테일 레이턴시에 취약한 단일 거대 작업"이기 때문. Google의 Virgo는 이를 전면 OCS 기반 2계층 네트워크로 재설계해 134,000개 TPU를 하나의 컴퓨터처럼 묶고, 총 집계 대역폭을 47 페타비트/초로 끌어올림.

Jupiter 피크 (2023)
13.1 Pb/s 이전 최고치
Virgo 집계 대역폭
47 Pb/s 약 3.6× 증가
단일 도메인 TPU 수
134,000 "캠퍼스 as a Computer"

Jupiter 네트워크 한계: 2015년 출시된 Jupiter는 당시 업계 최초 페타비트급 네트워크였음. Clos 토폴로지는 리프(leaf) → 스파인(spine) → 슈퍼스파인(super-spine) 다단계 홉 구조라 GPU→GPU 통신 시 상하로 여러 번 올라갔다 내려와야 함. 인터넷 트래픽(비동기, 다양한 소소스)에는 잘 맞지만 동기식 집합 통신을 요구하는 AI 학습에는 테일 레이턴시가 치명적. "가장 느린 노드가 전체 버스를 멈춘다"는 스트래글러(straggler) 문제.

Virgo 3계층 구조: 스케일업(pod 내 TPU 간) → 스케일아웃/백엔드(rack·pod 간, Virgo 패브릭 핵심) → 프런트엔드(스토리지·인터넷 연결, Jupiter 계속 사용 가능). Vic은 "재발명이 필요한 부분만 재발명했다"고 평가.

OCS가 핵심 기반: Virgo 백엔드는 실리콘 패킷 스위칭을 없애고 전면 광회로 스위칭(OCS)으로 2계층만 유지. Lumentum OCS 스위치 기준 300×300 포트, 미래 로드맵은 2,000×1,000까지 확장 가능. 포트 수(switch radix)가 늘어날수록 계층을 더 줄일 수 있음. Coherent도 OCS 공급사 후보로 언급.

TPU Direct(RDMA): 별도 혁신은 아니지만, 기존 CPU를 경유하던 TPU 간 메모리 접근을 네트워크 인터페이스 직접 연결로 교체. Nvidia의 GPU Direct와 동일 개념을 TPU에 적용. "중간 관리자(CPU)를 없애 핸드셰이크 오버헤드를 제거".

"The constraint is no longer compute. It is instead the networking that underlies all of compute today."
쉽게 풀어보기 — OCS란?
OCS (Optical Circuit Switching, 광회로 스위칭)
빛을 전기 신호로 변환하지 않고 광 도메인 안에서 거울처럼 반사해 포트 간 경로를 바꾸는 스위치. 변환 손실·지연이 없고 포트 수(radix)를 크게 높일 수 있어 AI 데이터센터의 대규모 all-to-all 통신에 유리함.
Switch Radix (스위치 래딕스)
스위치 하나가 가진 포트 수. 래딕스가 높을수록 한 스위치에 더 많은 장치를 직접 연결할 수 있어 계층(hop) 수를 줄일 수 있음.
테일 레이턴시 (Tail Latency)
분산 시스템에서 가장 느린 노드의 지연이 전체 작업 완료 시간을 결정하는 현상. AI 학습처럼 모든 노드가 동기적으로 작동해야 할 때 특히 치명적.
3D 토러스 vs 보드플라이 (스케일업 토폴로지)중립

루빅스 큐브에서 드래곤플라이로 — MoE 추론이 토폴로지를 바꿨다

Vic Shayker · 관련: MoE(Mixture of Experts), 드래곤플라이 논문(2008), Groq
💡 핵심 통찰

학습용 8T는 기존 3D 토러스(이웃 간 조밀한 통신에 최적), 추론용 8I는 신규 보드플라이(Dragonfly 변형) 토폴로지를 사용. MoE 추론에서는 어떤 전문가(expert)가 활성화될지 비결정적이라 이웃-이웃 통신보다 임의 원거리 통신이 많아짐 → 최대 홉 수를 16 → 7로 줄이는 보드플라이가 적합.

3D 토러스 최대 홉 (8×8×16)
16 hops
보드플라이 최대 홉
~7 hops 약 56% 감소
보드플라이 Pod 규모
1,152 chips 4 TPU/보드 × 8보드/그룹 × 36그룹

3D 토러스 구조 — "루빅스 큐브로 생각하라": 각 칩이 X·Y·Z 세 방향으로 이웃과 구리 직결, 같은 행·열의 맞은편 끝은 광케이블로 연결해 순환(torus) 형성. 가장 먼 노드는 엣지가 아닌 큐브의 정중앙(각 차원 절반씩 이동해야 도달). 8T 기준 8×8×16 구성 = 최대 4+4+8 = 16홉.

보드플라이 구조: ① 4개 TPU가 PCB 구리로 1장의 보드 구성 → ② 8개 보드가 AEC(Active Electrical Cable)로 1개 그룹(=랙) 구성 → ③ 36개 그룹이 OCS로 1개 Pod 구성(1,152 TPU). 그룹 간 점프는 OCS 1홉, 그룹 내 이동은 2~3홉, 총 6~7홉 수준.

왜 MoE에는 3D 토러스가 나쁜가: 학습에서는 모든 파라미터가 모든 칩에서 동시에 업데이트되므로 이웃 통신이 압도적. 하지만 MoE 추론에서는 토큰마다 다른 전문가가 활성화되어 통신 패턴이 비결정적·장거리화. 3D 토러스의 비활성 노드를 거쳐 다수 홉을 반복해야 해서 레이턴시 페널티가 큼.

드래곤플라이 기원 (역사 트리비아): Austin이 발굴한 내용 — 드래곤플라이 네트워크는 2008년 논문에서 최초 제안됨. 저자 중 Northwestern의 John Kim, Stanford의 William Dally(현 Nvidia 리서치 수장), Cray의 Steve Scott, Google 소속의 Dennis Abts(이후 Groq 초기 멤버 → Nvidia 이직)가 포함. "Nvidia 네트워킹 계보의 who's who가 한 논문에"라는 표현이 나올 만큼 화려한 저자진. Groq도 개별 LPU를 드래곤플라이 구성으로 연결하는 방식을 채택.

"보드플라이(Board Fly)라는 이름인 건, GPU 단위가 아닌 'TPU 4장 올린 보드' 단위로 드래곤플라이를 구성하기 때문이다."
OCS · 광회로 스위칭 산업Bullish

선택 사항에서 필수 인프라로 — OCS 없이 AI 데이터센터 없다

Vic Shayker · 관련: Lumentum, Coherent, 실리콘 포토닉스
💡 핵심 통찰

Virgo 설계를 보면 OCS는 이제 구글 데이터센터 네트워킹의 필수 기반(substrate)임이 명확해짐. 스케일아웃 백엔드 전면, 스케일업 그룹 간 연결까지 OCS가 없으면 2계층 구조·134,000 TPU 단일 도메인 자체가 불가능. Lumentum·Coherent 등 OCS 공급사의 전략적 중요성이 크게 부각되는 구조.

왜 OCS가 가능해졌나: 스위치 래딕스 문제. 기존 실리콘 스위치(Broadcom Tomahawk 계열 등)는 포트 수에 한계가 있어 Clos 다단 계층이 불가피했음. OCS는 300×300 포트(Lumentum 기준)를 실현하고, 미래 로드맵은 2,000×1,000까지 확장 가능. 포트 수가 많으면 계층이 줄고 홉이 줄고 레이턴시가 준다.

Virgo 내 OCS 적용 범위: 백엔드(스케일아웃) 네트워크 전체 + 스케일업 그룹(랙)-to-그룹 연결. 이 두 영역이 AI 워크로드 성능에서 가장 민감한 부분. 스케일업 내 보드 간 로컬 연결(AEC)과 보드 내 PCB 구리는 여전히 사용.

OCS의 역할 변화: Vic은 "2022년 Jupiter 업그레이드 때 OCS가 처음 도입됐을 때는 선택적(optional)이었지만, Virgo에서는 필수 구성요소(integral part)가 됐다"고 강조. 이는 AI 데이터센터 투자 사이클에서 광학 네트워킹 인프라 기업의 위상이 근본적으로 달라짐을 의미.

CAE (Collectives Acceleration Engine)중립

AllReduce도 전담 칩렛으로 — Nvidia SHARP의 Google 버전

Austin Lyons · 관련: Nvidia SHARP, DPU, 집합 통신
💡 핵심 통찰

TPU 8I는 텐서 코어 2개 + CAE(Collectives Acceleration Engine) 1개가 칩렛 다이에 통합. AllReduce, AllGather, All-to-All 등 집합 통신 연산을 전담 처리해 텐서 코어가 행렬 연산에만 집중할 수 있게 함. Nvidia SHARP 또는 DPU와 유사한 "네트워크 연산 오프로드" 철학의 구현.

무슨 얘기였나: 영상에서 충분히 다루지 못했다고 두 사람이 인정한 미완의 주제. Austin이 간략히 설명한 바에 따르면 CAE는 분산 학습·추론에서 빈번히 발생하는 집합 통신 패턴을 CPU·TPU 텐서 코어가 아닌 전용 실리콘으로 처리. "GPU는 행렬 곱만 하게 두고, 통신은 통신 전담 칩이 한다"는 방향성의 연장선.

왜 중요한가: 집합 통신은 대규모 학습에서 GPU 유효 활용률(goodput)을 갉아먹는 주요 원인 중 하나. 이를 오프로드하면 텐서 코어 가동률이 높아짐. 같은 이유로 Nvidia SHARP, Meta의 MSCCLANG 같은 네트워크 인텔리전트 레이어가 주목받아 왔음.

쉽게 풀어보기 — 집합 통신이란?
AllReduce
분산 학습에서 모든 칩의 그래디언트를 합산해 다시 모든 칩에 뿌리는 연산. 가장 빈번하고 대역폭을 많이 잡아먹는 패턴.
AllGather
각 칩이 가진 데이터 조각을 모든 칩이 모두 갖도록 모으는 연산.
All-to-All
모든 칩이 서로 다른 칩으로 서로 다른 데이터를 전송. MoE에서 전문가 라우팅 시 특히 많이 발생.