1. 먼저 3줄로 잡고 가자
게임의 본질
미국+한국은 최고 성능/와트 + HBM 최상단 + CUDA 생태계로 간다. 중국은 성능 열세를 전력·물량·정책·대형 클러스터로 밀어붙인다.
HBM이 진짜 목줄
전기는 더 먹일 수 있다. NPU도 더 깔 수 있다. 그런데 HBM은 칩 옆 local bandwidth라서, 약하면 전력만으로 완전히 보상하기 어렵다.
중국의 승리 구간
frontier training 정면승부보다, 중국 내 추론·국산 클라우드·MoE serving·정부/국영 AI에서 먼저 의미 있는 독립 생태계가 생길 가능성이 높다.
2. 초심자용 지도: 뭘 비교해야 하나
용어왜 HBM이 이렇게 중요한가
AI 칩은 계산기가 아니라 “계산기 + 초고속 메모리 + 통신망”이다. LLM은 모델 파라미터와 KV cache를 계속 읽어야 해서, 연산기가 아무리 세도 HBM 대역폭이 막히면 굶는다.
그래서 SK하이닉스가 단순 DRAM 업체가 아니라 AI 인프라의 핵심 병목 공급자가 됐다. HBM은 칩 바로 옆에 붙는 메모리라서, 중국이 전기를 더 넣는다고 바로 해결되는 물건이 아니다.
용어TPOT / latency가 왜 중요한가
TPOT는 token 하나를 내보내는 데 걸리는 시간이다. 챗봇·검색·agent 서비스에서는 평균 처리량보다 tail latency가 더 중요해진다.
중국식 대형 클러스터는 50ms 수준에서는 꽤 괜찮아 보이지만, 15ms 같은 빡센 SLO로 가면 throughput이 크게 꺾이는 숫자가 나온다. 이게 “도배 전략”의 숨은 비용이다.
3. 현재 공개 숫자: 단품은 NVIDIA, 총량은 화웨이식 도배
- GPU 단품 성능과 성능/와트가 강하다.
- H200은 141GB HBM3E와 4.8TB/s 메모리 대역폭을 제공한다.
- GB200 NVL72는 72개 Blackwell GPU와 36개 Grace CPU를 NVLink domain으로 묶고, GPU-GPU 통신 130TB/s를 제시한다.
- CUDA/NCCL/TensorRT-LLM/Transformer Engine이 workload 범용성을 만든다.
- 칩 하나는 NVIDIA 최상단보다 약한데, 384개 이상을 큰 scale-up system으로 묶는다.
- 중국 로컬 업계 분석 기준 Ascend 910C는 dual-die, FP16/BF16 약 752TFLOPS, HBM 128GB, 메모리 대역폭 3.2TB/s로 거론된다.
- CloudMatrix384는 384개 Ascend 910C NPU와 192개 Kunpeng CPU를 UnifiedBus로 묶는 구조다.
- 목표는 “최고 효율”이 아니라, 제재 환경에서 국산으로 충분한 token capacity를 확보하는 것이다.
CloudMatrix384의 Ascend 910C NPU 수. NVIDIA NVL72보다 칩 수를 훨씬 많이 쓰는 구조다.
Kunpeng CPU를 함께 묶어 CPU/NPU memory access와 scheduling을 같이 설계한다.
중국 반도체 매체가 인용한 SemiAnalysis 추정 기준 CloudMatrix384 dense BF16 총량.
같은 분석 기준 GB200 NVL72 대비 전력은 약 4.1배로 추정된다. 성능/와트는 약점이다.
4. 인터커넥트 딥다이브: 중국이 진짜 밀고 있는 무기
UnifiedBusCloudMatrix의 포인트는 “칩 여러 개를 하나처럼 보이게” 만드는 것
CloudMatrix384 논문에서 가장 의미 있는 숫자는 peak FLOPS가 아니라 inter-node latency와 bandwidth다. 일반적으로 노드 밖으로 나가면 통신이 확 느려지는데, CloudMatrix는 UnifiedBus를 통해 노드 밖에서도 꽤 균일한 access를 주장한다.
MoE dispatchH800 RDMA보다 좋아 보이는 구간
논문 기준 EP256에서 Dispatch는 H800 RDMA 194µs / 39GB/s, CloudMatrix384 UB 152µs / 54GB/s로 나온다. Combine은 차이가 더 크다. EP256 기준 H800은 360µs / 40GB/s, CloudMatrix는 149µs / 103GB/s다.
이건 “화웨이가 모든 면에서 H100/H200을 이겼다”가 아니라, DeepSeek-R1 같은 MoE serving의 특정 통신 패턴에서 UB가 잘 먹힌다는 의미로 봐야 한다.
TPOTlatency를 조이면 throughput이 꺾인다
CloudMatrix-Infer는 50ms TPOT 조건에서 NPU당 1,943 tokens/s를 제시한다. 그런데 15ms TPOT 조건에서는 538 tokens/s로 내려간다.
즉 중국식 대형 클러스터는 batch inference나 국산 cloud workload에는 꽤 맞지만, 초저지연 consumer AI에서는 효율 저하를 감수해야 한다.
5. 포워드 관점: Huawei는 “칩”이 아니라 “거대한 컴퓨팅 머신”을 판다
방향은 Ascend + UnifiedBus + optical interconnect + SuperPoD + SuperCluster로 중국판 AI grid를 만드는 쪽이다.
950PR은 Q1 2026 목표로 prefill·recommendation에 초점. 950DT는 Q4 2026 목표로 decode·training에 초점. 950DT는 144GB 메모리, 4TB/s 메모리 대역폭, 2TB/s interconnect 대역폭을 제시한다.
화웨이는 8,192개 Ascend 950DT, all-optical interconnect, 8 EFLOPS FP8, 16 EFLOPS FP4, 1,152TB 메모리, 16.3PB/s interconnect를 제시한다. 목표 시점은 Q4 2026.
960은 950 대비 compute, memory bandwidth, memory capacity, interconnect port를 2배로 키우겠다는 로드맵이다. Atlas 960 SuperPoD는 15,488개 칩, 30 EFLOPS FP8, 60 EFLOPS FP4, 4,460TB 메모리를 제시한다.
960 대비 FP4/FP8 compute 2배, interconnect bandwidth 2배, memory bandwidth 1.5배 이상을 목표로 한다. 여기서도 핵심은 공정 하나로 끝내는 게 아니라 memory와 interconnect를 같이 키우는 방향이다.
화웨이는 LogicFolding, 회로/칩/시스템 계층 최적화, Lingqu/UnifiedBus를 묶어 2031년에 1.4nm 등가 transistor density를 달성하겠다고 주장한다. 쉽게 말해 “공정 미세화가 막히면 구조와 시스템으로 시간 압축하겠다”는 선언이다.
6. CXMT HBM vs SK hynix HBM: 승부는 여기서 갈린다
- 최고급 고객, 특히 NVIDIA 요구에 맞춰 HBM3E/HBM4를 안정적으로 양산한다.
- HBM3E 12단은 36GB, 9.6Gbps, DRAM die 40% thinning, Advanced MR-MUF로 열 방출 약 10% 개선을 제시했다.
- 핵심은 “제일 멋진 기술”보다 수율·열·높이·warpage·양산성이다.
- HBM4 16단에서도 당장은 MR-MUF를 최대한 끌고 갈 가능성이 높다는 분석이 있다. 하이브리드 본딩은 준비하지만 원가/수율이 관건이다.
- 목표는 “SK hynix HBM4 바로 추월”이 아니라 중국산 AI칩에 붙일 수 있는 HBM3급 자급이다.
- 중국 현지/해외 분석은 CXMT가 HBM3를 2026년, HBM3E를 2027년 목표로 본다.
- 중국 HBM 장비 생태계는 etch, TSV, bonding, packaging 쪽을 빠르게 국산화하려 하지만, 수율 ramp가 진짜 관건이다.
- CXMT가 늦으면 Ascend 클러스터는 HBM stockpile이나 외부 HBM 의존에서 완전히 자유롭지 못하다.
7. 전력·정책: 중국이 성능/와트 열세를 버티는 방식
전력망과 컴퓨팅망을 같이 짠다
중국 국가데이터국은 “算电协同”, 즉 computing power와 electricity를 같이 배치하는 정책을 밀고 있다. 국가 허브 신규 시설은 green power 비중 80% 이상 목표가 언급된다.
전기료는 정책으로 눌러버린다
Reuters가 인용한 FT 보도 기준, 일부 대형 데이터센터는 에너지 비용을 최대 절반까지 낮추는 지원을 받는 것으로 보도됐다. 국산 AI칩 도입을 밀기 위한 정책 도구다.
전기료보다 운영이 문제
전력 4배를 태우는 건 가능할 수 있다. 하지만 냉각, 전력 접속, 광모듈, 스위치, 장애율, 낮은 utilization까지 같이 감당해야 한다.
8. 2026~2030 시나리오: 이 게임은 이렇게 흘러갈 가능성이 높다
중국 내 inference 생태계 분리
가장 현실적인 그림이다. Huawei Ascend/CloudMatrix가 중국 정부·국영기업·통신·금융·내수 클라우드 추론 수요를 흡수한다. NVIDIA+SK hynix는 글로벌 최상단 training과 hyperscaler에서 계속 강하다.
투자 의미: 중국 내 incremental AI capex 일부가 미국/한국 supply chain 밖으로 빠진다. 다만 글로벌 HBM 총수요가 바로 꺾인다는 뜻은 아니다.
MoE serving + HBM3E 자급이 맞물림
CXMT가 HBM3/3E를 안정적으로 ramp하고, DeepSeek류 MoE 모델이 중국 표준처럼 자리잡고, CANN/torch_npu 최적화가 좋아지면 중국은 “자국 내에서는 충분히 좋은” AI 인프라를 만든다.
투자 의미: 중국 반도체 장비, HBM 소재/패키징, 광통신, 전력기기, liquid cooling 체인에 훨씬 큰 capex가 붙는다.
HBM·소프트웨어·운영 안정성에서 막힘
샘플은 나오지만 HBM 수율이 안 맞고, 1,000+ NPU급 클러스터에서 장애율·tail latency·software kernel coverage가 발목을 잡는 그림이다. 이 경우 전력 도배는 capex 낭비로 바뀐다.
투자 의미: NVIDIA/SK hynix 독점력이 더 길게 간다. 중국 capex는 장비 국산화에는 긍정적이지만 compute 효율은 낮다.
9. 앞으로 봐야 할 체크포인트 10개
10. 투자적으로 번역하면
중국 쪽 기회“효율”보다 “국산 capex”가 먼저 붙는 영역
- 국산 AI accelerator: Huawei Ascend 중심, Cambricon·Kunlunxin·Moore Threads 등 보조 축
- HBM/advanced packaging 장비: etch, TSV, bonding, metrology, thermal material
- 광통신/스위치/케이블: SuperPoD/SuperCluster로 갈수록 통신 부품이 커진다
- 전력기기/liquid cooling: 성능/와트 열세를 물리적으로 감당하는 인프라
미국+한국 쪽 방어력“최상단 token cost”가 해자
- NVIDIA: NVLink/NVL72/Rubin + CUDA 생태계 + software maturity
- SK hynix: HBM3E/HBM4 고수율 양산, NVIDIA 최적화, 열/높이/수율 노하우
- TSMC/CoWoS: advanced packaging capacity와 yield
- hyperscaler 운영 경험: 대형 training run에서 장애율·복구·utilization 최적화
출처 / 참고자료
링크는 원문 확인용이다. 중국 현지 매체·업계 분석은 공식 스펙과 구분해서 읽어야 하며, 이 리포트에서는 “공식 발표”, “논문 실측”, “업계 추정”을 최대한 나눠 적었다.
- Huawei Connect 2025 keynote — Ascend 950/960/970, Atlas SuperPoD/SuperCluster 로드맵.
- Huawei Tau Law 발표 — LogicFolding, Lingqu/UnifiedBus, 2031 1.4nm 등가 density 주장.
- CloudMatrix384: A Unified Bus Architecture for Large-Scale AI Computing — UB microbenchmark, DeepSeek-R1 serving, dispatch/combine 결과.
- EET China / SemiAnalysis 인용 — CloudMatrix384와 GB200 NVL72 비교, power/FLOP 추정.
- 新浪财经 / 中信建投 분석 — Ascend 910C dual-die, HBM, UB 스위치 구조 관련 중국 로컬 분석.
- STPI 중국 HBM 공급망 분석 — CXMT, YMTC, 중국 HBM 장비/패키징 생태계.
- ChinaTalk / Ray Wang, Mapping China’s HBM Advances — CXMT HBM3 2026, HBM3E 2027 목표와 병목.
- SK hynix HBM3E 12H 공식 — 36GB, 9.6Gbps, DRAM thinning, Advanced MR-MUF.
- TrendForce, SK hynix HBM4 16-high MR-MUF 분석 — hybrid bonding과 MR-MUF 경제성 비교.
- TheElec, SK hynix hybrid bonding HBM 수율 개선 보도 — hybrid bonding 준비와 cost challenge.
- NVIDIA H200 공식 — H200 HBM 용량/대역폭/FP8 성능.
- NVIDIA GB200 NVL72 공식 — 72 Blackwell GPU, 36 Grace CPU, 130TB/s NVLink domain.
- 중국 국가데이터국 — 算电协同, national hub, green power 방향.
- Reuters, 중국 state-funded data center 국산 AI칩 정책 보도 — state-funded data center와 foreign AI chip 제한.
- Reuters / FT, 중국 cheap power 보도 — 일부 대형 데이터센터 에너지 비용 보조.
- Reuters / IDC, 중국 AI accelerator 시장 보도 — 2025년 중국 AI accelerator 시장에서 국산 업체 점유율 확대.