2026 Forward Deep Dive · AI 반도체 / HBM / 전력전

중국식 AI 반도체 추격전
Huawei Ascend·CloudMatrix·CXMT HBM vs NVIDIA·SK hynix

이 리포트의 핵심 질문은 하나다. “중국이 칩 단품 성능은 밀려도, 전력·물량·정책·국산 HBM으로 미국+한국 동맹을 따라갈 수 있나?” 단순 스펙 비교가 아니라, 앞으로 이 판이 어떻게 흘러갈지 보는 투자자용 지도다.

작성일: 2026-05-29 KST 자료: Huawei 공식 / arXiv 논문 / 중국 현지 반도체 매체 / Reuters / NVIDIA·SK hynix 공식 독자: 반도체 초심자 + 투자 실무자

1. 먼저 3줄로 잡고 가자

한 줄

게임의 본질

미국+한국은 최고 성능/와트 + HBM 최상단 + CUDA 생태계로 간다. 중국은 성능 열세를 전력·물량·정책·대형 클러스터로 밀어붙인다.

핵심 병목

HBM이 진짜 목줄

전기는 더 먹일 수 있다. NPU도 더 깔 수 있다. 그런데 HBM은 칩 옆 local bandwidth라서, 약하면 전력만으로 완전히 보상하기 어렵다.

포워드

중국의 승리 구간

frontier training 정면승부보다, 중국 내 추론·국산 클라우드·MoE serving·정부/국영 AI에서 먼저 의미 있는 독립 생태계가 생길 가능성이 높다.

똥멍청이용 1줄요약: NVIDIA+SK하이닉스는 “엔진 존나 좋은 슈퍼카”를 만들고, 중국은 “엔진은 약해도 384대 묶고 전기 왕창 먹여서 군단으로 밀어붙이는 트럭부대”를 만들고 있다.

2. 초심자용 지도: 뭘 비교해야 하나

연산칩GPU/NPU가 행렬곱을 얼마나 빠르게 치는가
HBM모델 가중치·KV cache를 얼마나 빨리 먹여주는가
인터커넥트칩 여러 개를 하나처럼 묶을 수 있는가

용어왜 HBM이 이렇게 중요한가

AI 칩은 계산기가 아니라 “계산기 + 초고속 메모리 + 통신망”이다. LLM은 모델 파라미터와 KV cache를 계속 읽어야 해서, 연산기가 아무리 세도 HBM 대역폭이 막히면 굶는다.

그래서 SK하이닉스가 단순 DRAM 업체가 아니라 AI 인프라의 핵심 병목 공급자가 됐다. HBM은 칩 바로 옆에 붙는 메모리라서, 중국이 전기를 더 넣는다고 바로 해결되는 물건이 아니다.

용어TPOT / latency가 왜 중요한가

TPOT는 token 하나를 내보내는 데 걸리는 시간이다. 챗봇·검색·agent 서비스에서는 평균 처리량보다 tail latency가 더 중요해진다.

중국식 대형 클러스터는 50ms 수준에서는 꽤 괜찮아 보이지만, 15ms 같은 빡센 SLO로 가면 throughput이 크게 꺾이는 숫자가 나온다. 이게 “도배 전략”의 숨은 비용이다.

3. 현재 공개 숫자: 단품은 NVIDIA, 총량은 화웨이식 도배

🇺🇸 NVIDIA + 🇰🇷 SK hynix식
  • GPU 단품 성능과 성능/와트가 강하다.
  • H200은 141GB HBM3E와 4.8TB/s 메모리 대역폭을 제공한다.
  • GB200 NVL72는 72개 Blackwell GPU와 36개 Grace CPU를 NVLink domain으로 묶고, GPU-GPU 통신 130TB/s를 제시한다.
  • CUDA/NCCL/TensorRT-LLM/Transformer Engine이 workload 범용성을 만든다.
🇨🇳 Huawei Ascend + CloudMatrix식
  • 칩 하나는 NVIDIA 최상단보다 약한데, 384개 이상을 큰 scale-up system으로 묶는다.
  • 중국 로컬 업계 분석 기준 Ascend 910C는 dual-die, FP16/BF16 약 752TFLOPS, HBM 128GB, 메모리 대역폭 3.2TB/s로 거론된다.
  • CloudMatrix384는 384개 Ascend 910C NPU와 192개 Kunpeng CPU를 UnifiedBus로 묶는 구조다.
  • 목표는 “최고 효율”이 아니라, 제재 환경에서 국산으로 충분한 token capacity를 확보하는 것이다.
384 NPUs

CloudMatrix384의 Ascend 910C NPU 수. NVIDIA NVL72보다 칩 수를 훨씬 많이 쓰는 구조다.

192 CPUs

Kunpeng CPU를 함께 묶어 CPU/NPU memory access와 scheduling을 같이 설계한다.

300 PFLOPS

중국 반도체 매체가 인용한 SemiAnalysis 추정 기준 CloudMatrix384 dense BF16 총량.

4.1× 전력

같은 분석 기준 GB200 NVL72 대비 전력은 약 4.1배로 추정된다. 성능/와트는 약점이다.

4. 인터커넥트 딥다이브: 중국이 진짜 밀고 있는 무기

UnifiedBusCloudMatrix의 포인트는 “칩 여러 개를 하나처럼 보이게” 만드는 것

CloudMatrix384 논문에서 가장 의미 있는 숫자는 peak FLOPS가 아니라 inter-node latency와 bandwidth다. 일반적으로 노드 밖으로 나가면 통신이 확 느려지는데, CloudMatrix는 UnifiedBus를 통해 노드 밖에서도 꽤 균일한 access를 주장한다.

164GB/s · 1.9µsNPU-NPU read, inter-node, 512B latency
167GB/s · 1.2µsNPU-NPU read, intra-node, 512B latency
135GB/s · 2.1µsNPU-NPU write, inter-node, 512B latency
137GB/s · 1.3µsNPU-NPU write, intra-node, 512B latency

MoE dispatchH800 RDMA보다 좋아 보이는 구간

논문 기준 EP256에서 Dispatch는 H800 RDMA 194µs / 39GB/s, CloudMatrix384 UB 152µs / 54GB/s로 나온다. Combine은 차이가 더 크다. EP256 기준 H800은 360µs / 40GB/s, CloudMatrix는 149µs / 103GB/s다.

이건 “화웨이가 모든 면에서 H100/H200을 이겼다”가 아니라, DeepSeek-R1 같은 MoE serving의 특정 통신 패턴에서 UB가 잘 먹힌다는 의미로 봐야 한다.

TPOTlatency를 조이면 throughput이 꺾인다

CloudMatrix-Infer는 50ms TPOT 조건에서 NPU당 1,943 tokens/s를 제시한다. 그런데 15ms TPOT 조건에서는 538 tokens/s로 내려간다.

즉 중국식 대형 클러스터는 batch inference나 국산 cloud workload에는 꽤 맞지만, 초저지연 consumer AI에서는 효율 저하를 감수해야 한다.

5. 포워드 관점: Huawei는 “칩”이 아니라 “거대한 컴퓨팅 머신”을 판다

화웨이의 진짜 방향은 “Ascend 한 개가 H100/B200을 이긴다”가 아니다.
방향은 Ascend + UnifiedBus + optical interconnect + SuperPoD + SuperCluster로 중국판 AI grid를 만드는 쪽이다.
26
Ascend 950PR / 950DT
950PR은 Q1 2026 목표로 prefill·recommendation에 초점. 950DT는 Q4 2026 목표로 decode·training에 초점. 950DT는 144GB 메모리, 4TB/s 메모리 대역폭, 2TB/s interconnect 대역폭을 제시한다.
26
Atlas 950 SuperPoD
화웨이는 8,192개 Ascend 950DT, all-optical interconnect, 8 EFLOPS FP8, 16 EFLOPS FP4, 1,152TB 메모리, 16.3PB/s interconnect를 제시한다. 목표 시점은 Q4 2026.
27
Ascend 960 / Atlas 960 SuperPoD
960은 950 대비 compute, memory bandwidth, memory capacity, interconnect port를 2배로 키우겠다는 로드맵이다. Atlas 960 SuperPoD는 15,488개 칩, 30 EFLOPS FP8, 60 EFLOPS FP4, 4,460TB 메모리를 제시한다.
28
Ascend 970
960 대비 FP4/FP8 compute 2배, interconnect bandwidth 2배, memory bandwidth 1.5배 이상을 목표로 한다. 여기서도 핵심은 공정 하나로 끝내는 게 아니라 memory와 interconnect를 같이 키우는 방향이다.
31
Tau Law / 韬光定律
화웨이는 LogicFolding, 회로/칩/시스템 계층 최적화, Lingqu/UnifiedBus를 묶어 2031년에 1.4nm 등가 transistor density를 달성하겠다고 주장한다. 쉽게 말해 “공정 미세화가 막히면 구조와 시스템으로 시간 압축하겠다”는 선언이다.

6. CXMT HBM vs SK hynix HBM: 승부는 여기서 갈린다

🇰🇷 SK hynix식 HBM 철학
  • 최고급 고객, 특히 NVIDIA 요구에 맞춰 HBM3E/HBM4를 안정적으로 양산한다.
  • HBM3E 12단은 36GB, 9.6Gbps, DRAM die 40% thinning, Advanced MR-MUF로 열 방출 약 10% 개선을 제시했다.
  • 핵심은 “제일 멋진 기술”보다 수율·열·높이·warpage·양산성이다.
  • HBM4 16단에서도 당장은 MR-MUF를 최대한 끌고 갈 가능성이 높다는 분석이 있다. 하이브리드 본딩은 준비하지만 원가/수율이 관건이다.
🇨🇳 CXMT식 HBM 현실
  • 목표는 “SK hynix HBM4 바로 추월”이 아니라 중국산 AI칩에 붙일 수 있는 HBM3급 자급이다.
  • 중국 현지/해외 분석은 CXMT가 HBM3를 2026년, HBM3E를 2027년 목표로 본다.
  • 중국 HBM 장비 생태계는 etch, TSV, bonding, packaging 쪽을 빠르게 국산화하려 하지만, 수율 ramp가 진짜 관건이다.
  • CXMT가 늦으면 Ascend 클러스터는 HBM stockpile이나 외부 HBM 의존에서 완전히 자유롭지 못하다.
중요: 중국이 전기를 아무리 싸게 넣어도 HBM이 약하면 “칩 수 증가 → 통신량 증가 → latency 증가 → 냉각/장애율 증가”로 비용이 번진다. 그래서 중국의 진짜 병목은 전기요금이 아니라 HBM local bandwidth와 수율이다.

7. 전력·정책: 중국이 성능/와트 열세를 버티는 방식

算电协同

전력망과 컴퓨팅망을 같이 짠다

중국 국가데이터국은 “算电协同”, 즉 computing power와 electricity를 같이 배치하는 정책을 밀고 있다. 국가 허브 신규 시설은 green power 비중 80% 이상 목표가 언급된다.

보조금

전기료는 정책으로 눌러버린다

Reuters가 인용한 FT 보도 기준, 일부 대형 데이터센터는 에너지 비용을 최대 절반까지 낮추는 지원을 받는 것으로 보도됐다. 국산 AI칩 도입을 밀기 위한 정책 도구다.

단점

전기료보다 운영이 문제

전력 4배를 태우는 건 가능할 수 있다. 하지만 냉각, 전력 접속, 광모듈, 스위치, 장애율, 낮은 utilization까지 같이 감당해야 한다.

포워드 해석: 중국은 “전기요금을 싸게 받는 나라”를 넘어, 국산 칩을 쓰는 데이터센터에 전력·토지·정책금융을 묶어주는 방향으로 간다. 이러면 성능/와트 열세가 단기에는 덜 치명적이 된다.

8. 2026~2030 시나리오: 이 게임은 이렇게 흘러갈 가능성이 높다

Base case

중국 내 inference 생태계 분리

가장 현실적인 그림이다. Huawei Ascend/CloudMatrix가 중국 정부·국영기업·통신·금융·내수 클라우드 추론 수요를 흡수한다. NVIDIA+SK hynix는 글로벌 최상단 training과 hyperscaler에서 계속 강하다.

투자 의미: 중국 내 incremental AI capex 일부가 미국/한국 supply chain 밖으로 빠진다. 다만 글로벌 HBM 총수요가 바로 꺾인다는 뜻은 아니다.

China bull

MoE serving + HBM3E 자급이 맞물림

CXMT가 HBM3/3E를 안정적으로 ramp하고, DeepSeek류 MoE 모델이 중국 표준처럼 자리잡고, CANN/torch_npu 최적화가 좋아지면 중국은 “자국 내에서는 충분히 좋은” AI 인프라를 만든다.

투자 의미: 중국 반도체 장비, HBM 소재/패키징, 광통신, 전력기기, liquid cooling 체인에 훨씬 큰 capex가 붙는다.

China bear

HBM·소프트웨어·운영 안정성에서 막힘

샘플은 나오지만 HBM 수율이 안 맞고, 1,000+ NPU급 클러스터에서 장애율·tail latency·software kernel coverage가 발목을 잡는 그림이다. 이 경우 전력 도배는 capex 낭비로 바뀐다.

투자 의미: NVIDIA/SK hynix 독점력이 더 길게 간다. 중국 capex는 장비 국산화에는 긍정적이지만 compute 효율은 낮다.

9. 앞으로 봐야 할 체크포인트 10개

Atlas 950/960 실제 설치 대수화웨이 발표 숫자가 아니라, China Mobile·국영 클라우드·대형 인터넷 기업에 실제로 몇 대 깔리는지가 중요하다.
TPOT 15ms 이하 성능50ms에서는 좋아 보여도, 초저지연 서비스에서 throughput이 얼마나 버티는지 봐야 한다.
CXMT HBM3/3E 수율샘플보다 volume ramp가 중요하다. GB/s, stack height, thermal 안정성, 불량률이 진짜 숫자다.
HBM stockpile 소진제재 전 확보한 외부 HBM 재고가 어느 시점에 CXMT산으로 넘어가는지가 Ascend 공급 안정성을 좌우한다.
CANN / torch_npu 생태계특정 모델 최적화는 가능하다. 문제는 범용 workload, kernel coverage, debugging, distributed training 안정성이다.
SMIC 선단공정 capacityAscend가 많이 팔리려면 칩 설계만이 아니라 wafer capacity와 yield가 따라와야 한다.
UnifiedBus / optical interconnect 부품스위치, 광모듈, cable, failure detection이 대형 클러스터의 숨은 병목이다.
전력 보조 지속성전기료 보조가 유지되면 성능/와트 열세를 버틴다. 줄어들면 economics가 급격히 나빠질 수 있다.
NVIDIA Rubin / GB300 반격중국이 950/960으로 오는 동안 NVIDIA도 멈추지 않는다. rack-scale 성능/와트 격차가 다시 벌어질 수 있다.
SK hynix HBM4 양산철학MR-MUF를 어디까지 끌고 가고, hybrid bonding을 언제 경제성 있게 넣는지가 HBM 격차의 핵심이다.

10. 투자적으로 번역하면

중국 쪽 기회“효율”보다 “국산 capex”가 먼저 붙는 영역

  • 국산 AI accelerator: Huawei Ascend 중심, Cambricon·Kunlunxin·Moore Threads 등 보조 축
  • HBM/advanced packaging 장비: etch, TSV, bonding, metrology, thermal material
  • 광통신/스위치/케이블: SuperPoD/SuperCluster로 갈수록 통신 부품이 커진다
  • 전력기기/liquid cooling: 성능/와트 열세를 물리적으로 감당하는 인프라

미국+한국 쪽 방어력“최상단 token cost”가 해자

  • NVIDIA: NVLink/NVL72/Rubin + CUDA 생태계 + software maturity
  • SK hynix: HBM3E/HBM4 고수율 양산, NVIDIA 최적화, 열/높이/수율 노하우
  • TSMC/CoWoS: advanced packaging capacity와 yield
  • hyperscaler 운영 경험: 대형 training run에서 장애율·복구·utilization 최적화
최종 판단: 중국이 글로벌 frontier training에서 바로 NVIDIA+SK hynix를 꺾는 그림은 아직 멀다. 대신 중국 내 AI inference와 sovereign AI 인프라는 빠르게 탈동조화될 수 있다. 이 경우 시장은 “하나의 글로벌 AI 반도체 시장”이 아니라, 미국권 최상단 효율 생태계 vs 중국권 정책·물량 생태계로 갈라진다.

출처 / 참고자료