차세대 AI 인프라가 왜 CPO(동일 패키지 광학)를 필요로 하는가. 컴퓨터를 1도 몰라도 따라올 수 있게, 0교시부터 시작합니다 — 그리고 LITE·COHR·MRVL이 어떻게 움직이는지까지.
난이도 초급 ★ → 중급 ★★ → 고급 ★★★👨🏫 = 쌤의 직강 (떠먹여주기)💡 = 투자 유레카 포인트
원문: "Why next-gen AI scale-up needs CPO" (SemiAnalysis) · 상장사 데이터: SEC 공시·Nvidia/Marvell 발표(2026.02~03) 기반
3줄 요약
scale-out은 미끼, scale-up이 본진. CPO를 scale-out 스위치에 먼저 넣는 건 절감폭이 커서가 아니라(총 클러스터 비용 ~3%·전력 ~2% 절감뿐) 공급망을 미리 길들이는 'pipe-cleaner'다. 진짜 TAM과 돈은 NVLink 같은 scale-up에 있다.
구리는 물리적 벽에 부딪혔다. 도달거리 2m, SerDes 속도 더블링의 한계. CPO는 동일·우월한 대역폭 밀도에 더해 여러 축(파장·광섬유·변조)으로 대역폭을 늘릴 길을 열고 랙을 넘어 world size를 키운다.
승자는 TSMC와 레이저·광부품 공급망. TSMC COUPE가 통합 표준으로 부상, ELS 외부 레이저가 컨센서스 → Nvidia가 LITE·COHR에 각 $2B 투자(2026.03). Marvell은 Celestial AI를 인수해 scale-up CPO를 노린다.
0교시 · 컴알못 온보딩 초급 ★
그래서 이게 다 무슨 얘기냐면…
쌤의 직강 — 일단 그림부터 머릿속에 그립시다
자, 컴퓨터 1도 몰라도 됩니다. 딱 하나만 상상하세요. 'AI 공장'이라는 거대한 창고가 있어요. 그 안엔 계산을 미친 듯이 잘하는 GPU라는 칩이 수만~수십만 개 들어있습니다. ChatGPT 같은 AI는 이 GPU들이 다 같이 달라붙어 만들어내는 거예요.
그런데 문제가 있어요. GPU 한 개로는 택도 없어서 수만 개가 서로 쉴 새 없이 대화하며 계산을 나눠 해야 합니다. "야 이거 너가 계산해" "오케이 결과 보낼게" 이걸 1초에 수십조 번 합니다. 이 대화 통로가 오늘 이야기의 전부예요.
지금 그 통로는 구리선(전기)입니다. 근데 GPU가 너무 똑똑해지고 숫자가 많아지니까, 구리선이 못 따라가요. 그래서 통로를 빛(광섬유)으로 바꾸자는 게 바로 CPO 이야기입니다. 끝. 이게 전부예요. 나머지는 디테일.
그림 0 · AI 공장의 큰 그림
한 문장 요약: "GPU끼리 대화하는 통로를 구리에서 빛으로 바꾸는 이야기" — 이게 CPO의 전부.
모르면 안 되는 4개 단어만 깔고 갑니다
GPU/XPU: 계산 담당 칩. (XPU = GPU·TPU·Trainium 등 AI 가속칩 통칭) 스위치(Switch): 통화를 연결해주는 교환기. 데이터를 어디로 보낼지 교통정리. 트랜시버(Transceiver): 전기 ↔ 빛을 바꿔주는 꽂는(pluggable) 어댑터. 지금 광통신의 표준 부품. 인터커넥트(Interconnect): 칩끼리 잇는 '대화 통로' 전체를 부르는 말.
스위치 = 옛날 전화 교환원, 트랜시버 = 콘센트에 꽂는 충전 어댑터, 인터커넥트 = 집 안 전체 배선.
쌤의 직강 — '스케일업'과 '스케일아웃'만 구분하면 90% 끝
오늘 수업에서 제일 중요한 단어 두 개. 헷갈리면 다 무너집니다. 천천히 갑니다.
① 스케일업(Scale-up): GPU 몇십 개를 묶어서 하나의 괴물 GPU처럼 만드는 것. 책상 위 컴퓨터들을 초고속 랜선으로 한 덩어리로 묶는 느낌. Nvidia에선 이 랜선을 NVLink라고 불러요. 지금은 100% 구리.
② 스케일아웃(Scale-out): 그렇게 만든 괴물 덩어리들을 다시 더 큰 네트워크로 잇는 것. 사무실끼리 건물 네트워크로 잇는 느낌. InfiniBand / Ethernet이 담당하고, 여기에 광 트랜시버가 쓰입니다.
핵심: 스케일업(책상끼리)이 스케일아웃(사무실끼리)보다 훨씬 빡세게, 9배는 빠르게 통신해야 해요. 그래서 결론이 미리 나옵니다 — 빛(CPO)이 진짜 필요한 곳은 스케일업이다. 이거 하나 기억하고 1교시 갑니다.
그림 1 · 스케일업 vs 스케일아웃
왼쪽(스케일업)이 오른쪽(스케일아웃)보다 요구 대역폭이 9배. 그래서 빛이 절실한 쪽은 왼쪽이다.
↓ 준비됐으면 위 메뉴에서 1교시로
1교시 · 핵심 테제 초급 ★
왜 트랜시버는 비효율적이고, CPO가 답인가
쌤의 직강 — 우체국이 동네 끝에 있는 게 문제다
지금 방식(트랜시버)을 그림으로 봅시다. 칩(GPU/스위치)에서 나온 전기신호가 빛으로 바뀌려면, 칩에서 15~30cm나 떨어진 장비 앞판까지 구리 위를 달려가야 해요. 그 먼 거리를 힘껏 밀어내느라 강력한 회로(LR SerDes)가 필요하고, 도착하면 신호가 너덜너덜해져서 DSP라는 칩이 복원한 다음에야 빛으로 바뀝니다.
이 DSP라는 놈이 전기 엄청 먹고(모듈 전력의 절반!) 비쌉니다. 공공의 적 1호예요.
CPO의 아이디어는 단순해요. "빛으로 바꾸는 장치(광엔진)를 칩 바로 옆 수 mm에 붙이자." 그럼 멀리 갈 일이 없으니 DSP 통째로 빼고, 약한 회로만 써도 됩니다. 전력 확 줄고, 빨라지고, 좁은 공간에 더 많이 욱여넣을 수 있어요.
그림 2 · 트랜시버 vs CPO — 신호가 가는 거리 (오늘의 핵심 그림)
①에서 빨간 구간(긴 구리)과 DSP가 ②에서 통째로 사라진다. 이게 절감의 원천.
구리의 두 가지 벽
도달 거리
~2m
200G/lane 구동 시 구리 최대 거리. scale-up 도메인이 1~2개 랙에 갇힌다.
GPU당 대역폭 (현재→Rubin)
7.2→14.4 Tbit/s
NVLink. Rubin에선 양방향 SerDes로 또 더블링.
SerDes 더블링
느린 소모전
더 빠른 SerDes로 구리 대역폭 늘리는 건 점점 힘든 길.
유레카 포인트 — 통념 뒤집기
모두가 GTC의 CPO scale-out 스위치에 흥분하지만, 진짜 돈은 scale-up에 있다. SemiAnalysis는 "CPO TAM은 scale-up이 압도적으로 지배할 것"이라 본다. → scale-out 단기 매출보다 scale-up CPO 공급망과 타임라인(Feynman 세대)에 포지션을 맞추는 게 thesis에 부합.
2교시 · Part 1 — TCO 분석 중급 ★★
scale-out CPO, 숫자로 보면 김이 샌다
쌤의 직강 — "절감률 84%"에 속지 마세요
여기서 많이들 낚입니다. "CPO 쓰면 트랜시버 전력 84% 절감!" 와, 대박이다 싶죠? 함정이 있어요.
네트워킹(통로) 자체가 데이터센터 전체 전력의 9%밖에 안 돼요. 나머지 91%는 GPU 같은 계산 장비가 씁니다. 그러니 통로 안에서 84%를 줄여도 전체로 보면 2% 줄어드는 거예요. 김 새죠?
게다가 스위치 회사가 CPO 부품에 마진을 왕창 얹으면 오히려 더 비싸질 수도 있어요. 그래서 결론: scale-out CPO는 천천히 온다. 급할 게 없어요.
back-end 비중 (3-layer)
85% / 86%
네트워킹 비용 85%·전력 86%를 back-end가 차지.
네트워킹 = 클러스터 비용
15~18%
서버 다음으로 큰 항목.
네트워킹 = 클러스터 전력
단 9%
이래서 절감 효과가 희석된다.
전환 시나리오
네트워킹 전력
총 클러스터 전력
총 클러스터 비용
CPO (3-layer 유지)
-23%
-2%
-3%
CPO (2-layer로 평탄화)
-48%
-4%
-7%
네트워크 'layer 평탄화'가 왜 4배 효과?
최대 호스트 = 2 × (k/2)L. 포트 수 k가 layer 수 L만큼 지수로 작동. 800G 포트를 400G 둘로 쪼개 논리포트 2배면 → 호스트는 2²=4배. Nvidia CPO 스위치는 high-radix가 박스 안에 내장돼 셔플박스·문어발 케이블 없이 3→2 layer 평탄화 가능 — 진짜 셀링포인트.
환승역(layer)을 하나 없애면 연결 가능 인원이 곱셈이 아니라 거듭제곱으로 늘어난다.
scale-up = the killer application
5세대 NVLink(Blackwell)는 GPU당 7,200 Gbit/s — scale-out(800Gbit/s)의 9배. 요구 수준이 차원이 다르고, scale-up 인터커넥트 TAM은 이미 scale-out을 한참 앞섰다.
Meta 신뢰성 데이터 — 좋긴 한데 충분친 않다
Meta×Broadcom이 ECOC 2025에서 Bailly CPO 스위치 15대를 ~325일 돌려 CPO MTBF 2.6M vs 트랜시버 0.5~1M device hours로 우수. 첫 400만 시간 복구불가에러(UCW) 0건.
함정: 15대를 11개월 돌린 lab 데이터일 뿐. 현장(온도·먼지)에서 수천 대 돌리는 건 다른 문제. blast radius는 64×800G 포트.
신차 15대 11개월 시험주행으로 "수십만 대 양산해도 OK"라 하기엔 이르다.
3교시 · Part 2 — 구조와 원리 중급 ★★
SerDes가 벽에 부딪혔다
쌤의 직강 — SerDes? 고속도로 제한속도라고 생각하세요
SerDes(서데스)는 칩 안의 데이터를 한 줄로 묶어 빠르게 쏘고 받는 쪽에서 다시 푸는 회로예요. 데이터가 나갈 수 있는 출구(I/O) 개수는 한정돼 있으니, 출구 하나하나의 속도(주파수)를 올려서 대역폭을 키워왔어요.
근데 속도를 올리면 신호 손실이 커져서 멀리 못 가요. 224G 만드는 것도 힘들었고, 448G는 진짜 단방향으론 불확실. 그래서 Rubin은 같은 구리선에 송신·수신을 겹치는 양방향 SerDes라는 꼼수로 버텨요.
핵심 통찰: 거리를 안 가도 되면(=CPO처럼 칩 옆에 붙으면) 빠른 SerDes 만들기가 훨씬 쉬워집니다. 멀리 안 보내도 되니까. 그래서 CPO는 SerDes 로드맵까지 연장시켜줘요. 일석이조.
그림 3 · "가까우면 구리, 멀면 빛" — 효율 곡선
격언: "Use copper where you can, optical when you must." 가까우면 구리가 우월, 멀어지면 빛이 이긴다. Nvidia가 랙 밀도를 미친듯이 올리는 이유 = 구리 쓸 거리를 최대한 늘리려고.
DSP → LPO → CPO, 그리고 이웃들
방식
광엔진 위치
평가
front-pluggable (현재 표준)
앞판 (15~30cm)
교체 쉽고 협상력↑, 그러나 DSP·전력↑
NPO (near-packaged)
ASIC 옆 다른 기판
CPO로 가는 중간 단계
OBO (on-board)
시스템 PCB 위
"두 세계의 최악"
CPC (co-packaged copper)
기판서 구리 직접
PCB 우회, 단거리·448G 유망
CPO (목표)
칩 옆 수 mm
최고 효율, 양산 난도↑
유레카 포인트 — Nvidia의 NVLink 해자가 흔들린다
NVLink 5.0은 1.0 대비 11배 빨라졌는데 그 중 10배가 SerDes 속도(20G→200G)에서 왔다. NVLink 6.0은 200G에 머물며 양방향 SerDes로 lane을 더블링하는 꼼수로 버틴다. SerDes·shoreline이 벽에 부딪히면 총 대역폭이 정체 → AMD·하이퍼스케일러 추격의 기회. CPO/Wide I/O 전환이 경쟁 구도를 재편할 변수.
4교시 · Part 3 — 양산 기술 고급 ★★★
패키징 · COUPE · 커플링 · 레이저 · 변조
쌤의 직강 — 광엔진은 '빛칩+전기칩' 도시락
광엔진(OE)은 두 가지로 돼 있어요. 빛을 다루는 PIC(포토닉 칩)와 전기를 다루는 EIC(전기 칩). 이 둘을 어떻게 붙이느냐가 전부예요.
옛날엔 한 판에 같이 만들려(monolithic) 했는데, 빛 공정은 미세화가 35nm에서 막혀서 성능이 안 나와요. 그래서 지금은 따로 만들어 위아래로 딱 붙이는(3D) 방식이 대세. 붙이는 거리가 짧을수록 성능이 좋아지거든요.
여기서 TSMC가 게임을 가져갑니다. 'COUPE'라는 방식으로 빛칩·전기칩을 범프 없이(bumpless) 초밀착시켜요. 효과? 같은 전력에 대역폭 밀도 23배. 그래서 Broadcom도 기존 방식 버리고 COUPE로 갈아탑니다.
그림 4 · TSMC COUPE 단면 — 빛칩+전기칩 초밀착
COUPE lock-in: TSMC는 타사 빛칩을 패키징 안 해준다 → COUPE 쓰면 자동으로 TSMC PIC까지 써야 한다. 옵틱스 밸류가 TSMC로 집중.
Fiber Coupling — 광섬유를 어떻게 붙이나 (EC vs GC)
그림 5 · Edge Coupling vs Grating Coupling
Nvidia·TSMC 모두 GC 선호 — 2D 밀도, 작은 풋프린트, 웨이퍼레벨 테스트 용이, interposer 배치 가능. (단점은 감수.)
레이저 — 왜 칩 밖에 두나 (ELS)
쌤의 직강 — 자주 퍼지는 엔진은 탈착식으로
레이저는 가장 잘 고장 나고, 열에 약하고, 출력도 빠듯한 골칫덩이예요. 이걸 칩 안에 박아넣으면? 고장 나면 칩 전체가 죽고(blast radius), 가장 뜨거운 칩 옆이라 더 빨리 망가져요.
그래서 업계 합의는 ELS(외부 광원) — 레이저를 별도 모듈로 빼서 광섬유로 연결. 고장 나면 그것만 쏙 갈아끼우면 됩니다. 바로 이 레이저 시장을 노리고 Nvidia가 Lumentum·Coherent에 각 $2B를 꽂은 거예요(2026.03). 6교시에서 자세히.
WDM — 광섬유 하나에 무지개 흘려보내기
그림 6 · WDM (파장분할다중화)
CPO는 붙일 수 있는 광섬유 수가 제한적 → 각 섬유의 활용을 극대화하는 WDM이 필수.
대역폭을 늘릴 4가지 축 (CPO의 진짜 매력)
Vector 1
Baud rate
심볼 속도↑
Vector 2
DWDM
파장 채널 추가
Vector 3
광섬유 쌍 추가
More fiber pairs
Vector 4
고차 변조
PAM6/PAM8 등
구리는 사실상 'SerDes 속도'라는 한 축뿐인데, CPO는 늘릴 축이 네 개다. 이게 장기 로드맵에서 CPO가 이기는 이유.
TSEM·GFSTower·GlobalFoundries는 전통 SiPho 강자였으나 선단에서 COUPE에 밀리는 구도. 특정 노드·모놀리식 영역 잔존.
구리 진영Luxshare의 CPC(동일패키지 구리)는 단거리·448G에서 생존. "이분법 아닌 하이브리드"가 답 — 구리도 안 죽는다.
메모리(한국)scale-up world size 확대 = 한 도메인에 묶이는 GPU↑ = HBM·메모리 대역폭 수요 동반. SK하이닉스·삼성 간접 수혜 논리.
유레카 포인트 — 한 줄 포지셔닝
가장 깨끗한 픽은 '레이저 병목'(LITE·COHR) — Nvidia가 돈으로 증명. 가장 레버리지 큰 픽은 scale-up(MRVL/Celestial, Feynman 타임라인). 가장 구조적인 픽은 TSMC COUPE lock-in. 어닝콜 추적 키워드: "scale-up CPO 양산 시점·예약(commitment)", "InP 캐파", "CPO 런레이트".