Semi Doped · 인터뷰MUST ASSET — 유튜브 매거진

Meta가 광고로 조 단위 파라미터 모델을 서브-1초에 돌리는 법

Andromeda·Lattice·GEM·MTIA·AlphaKernel — Meta 광고 인프라의 전 스택을 VP가 직접 해부

3줄 요약

  1. Meta 광고 시스템은 Andromeda(검색)Lattice / GEM(랭킹) 2단계 구조로, 30억+ DAU에게 서브-1초 레이턴시로 최적 광고를 매칭한다.
  2. 최신 Adaptive Ranking 모델1조 파라미터 규모의 LLM급 추천 모델로, 유저별 인터랙션 시퀀스 길이에 따라 컴퓨트를 가변 투입해 예측 정확도를 대폭 끌어올렸다.
  3. LLM이 하드웨어별 최적화 커널을 자동 작성하는 AlphaKernel 기술 덕분에, 이종 실리콘 최적화 비용이 급감하고 소프트웨어 최적화 수요는 100배 규모로 폭발 중이다.
한눈에 — 다룬 기술·테마
종목/테마발언자핵심 한 줄
AndromedaMatt SteinerBullish광고 검색 단계, GPU 커스텀 SKU와 공동설계해 초대형 후보군 처리
Lattice / GEMMatt SteinerBullish단일 통합 랭킹 모델 → 파운데이션 모델 → 증류 서빙 모델로 진화
Adaptive RankingMatt SteinerBullish1조 파라미터, 서브-1초, 유저별 가변 컴퓨트 — "LLM급 추천 모델"
MTIA / 커스텀 실리콘Matt Steiner중립추천 시스템은 LLM과 IO 비율 달라 커스텀 SKU가 필요한 경우 존재
AlphaKernel (LLM 커널 자동생성)Matt SteinerBullish이종 하드웨어 최적화를 LLM이 대신 써줘 소프트웨어 비용 급락
Meta Andromeda · 광고 검색Bullish

"검색 후보군이 너무 많아졌다" — GPU 커스텀 SKU로 해결

Matt Steiner · Meta VP · 관련: Nvidia Grace Hopper, 광고 검색 단계
💡 핵심 통찰

광고 서빙 첫 단계인 검색(Retrieval)은 "Matt에게 보여줄 수 있는 모든 광고" 목록을 추려내는 작업이다. 이 목록이 폭발적으로 길어지면서, 과거 CPU로는 불가능해졌고 Meta는 Nvidia와 공동으로 메모리 대역폭 최적화 GPU SKU를 설계했다. 이 하드웨어 위에서 돌아가는 ML 모델이 Andromeda.

무슨 얘기였나: 광고 시스템의 첫 번째 관문은 Retrieval. 광고주가 등록한 광고 중 특정 유저에게 의미 있을 후보군만 걸러내는 작업이다. 유저의 과거 관심사·인터랙션이 임베딩된 ML 모델이 초대형 광고 인덱스에서 후보를 뽑아내고, 이를 다음 단계 Ranking 시스템에 넘긴다.

왜 GPU가 필요해졌나: 후보군 크기가 계속 커지면서 CPU 기반으로는 레이턴시 제약을 맞출 수 없었다. Steiner는 "검색 문제는 컴퓨트 바운드보다는 메모리 바운드"라고 표현했다. 즉, GPU가 연산을 쉬지 않도록 충분한 메모리 채널(고대역폭 메모리)을 갖춘 SKU가 필요했다. Nvidia와 협업해 검색 워크로드에 최적화된 커스텀 SKU를 설계했고, 여기에 공동으로 ML 모델을 맞췄다.

"We co-designed a machine learning model that runs specifically on that hardware skew for the purposes of best assessing which ads are the top end ads to rank."
Lattice · GEM · 광고 랭킹Bullish

수십 개 랭킹 모델을 하나로 — 그리고 파운데이션 모델까지

Matt Steiner · Meta VP · 관련: Adaptive Ranking, 모델 증류
💡 핵심 통찰

Retrieval 이후 단계인 Ranking은 후보 광고들에 "전환 확률 × 광고주 기대 가치" 순으로 순위를 매긴다. Meta는 수십 개였던 랭킹 모델을 Lattice로 통합하고, 더 나아가 GEM(Generative Ads Recommendation Model)이라는 파운데이션 모델을 훈련해 최대 예측 정확도를 추구했다. GEM 자체는 너무 커서 직접 서빙 불가 → 증류 과정을 거쳐 서빙 가능한 크기로 만든다.

Lattice 통합의 이점: 유저 관심사 벡터를 하나만 유지하면 되니 메모리 절감. 여러 모델에서 중복으로 계산하던 서브넷을 한 번만 계산 → 컴퓨트 효율 향상. 더 다양한 목적함수 데이터로 단일 대형 모델을 훈련하니 예측 성능도 향상.

GEM이란: Meta 광고 시스템이 보유한 모든 학습 데이터를 투입해 만든 최대 규모 파운데이션 모델. 이를 통해 "어떤 광고주 목표에도 적용 가능한 핵심 표현"을 학습하고, 이 지식을 더 작고 효율적인 서빙 모델들로 증류(distillation)해 배포한다.

왜 직접 서빙이 안 되나: 모델이 너무 크고 일부 레이어가 효율적이지 않아 레이턴시 제약(~1초)을 맞출 수 없기 때문. 증류된 모델이 성능과 속도 사이의 균형을 맞춘다.

쉽게 풀어보기 — 모델 증류(Distillation)
파운데이션 모델
엄청난 데이터로 훈련한 초대형 "선생님" 모델. 예측 정확도는 최고지만 너무 무거워서 실시간 서비스에 직접 쓰기 어렵다.
증류(Distillation)
큰 모델의 "지식"을 작은 모델에게 전수하는 과정. 작은 모델이 실제 서비스에 투입되며, 선생님 모델의 예측 분포를 모방하도록 훈련된다.
Adaptive Ranking ModelBullish

1조 파라미터, 서브-1초 — "파워 유저에게는 더 많은 컴퓨트를"

Matt Steiner · Meta VP · 관련: GEM, 유저 인터랙션 히스토리
💡 핵심 통찰

모든 유저에게 동일한 컴퓨트를 쓰는 게 아니라, 유저의 인터랙션 히스토리가 길수록 더 많은 컴퓨트를 투입한다. 결혼기념일마다 특정 카테고리 구매, 자녀 생일마다 반복 구매 같은 패턴을 긴 시퀀스에서 잡아낼 수 있어 예측 정확도가 크게 오른다.

모델 규모
~1조 파라미터 (inference 모델)
서빙 레이턴시
서브-1초 (sub-second)
DAU
30억+ Meta 전체

왜 가변 컴퓨트인가: 기존 아키텍처는 모든 유저 요청에 고정 컴퓨트를 배분했는데, 레이턴시 예산 내에서 처리할 수 있는 인터랙션 히스토리 길이가 제한됐다. Adaptive Ranking은 유저별 히스토리 시퀀스 길이에 따라 컴퓨트 투입량을 대폭 달리 한다. 평균적인 유저는 적은 컴퓨트로, 파워 유저는 훨씬 많은 컴퓨트로 처리해 전체 비용 대비 정확도를 최적화한다.

실생활 유추: "매년 9월에 특정 카테고리 물건을 산다"는 패턴은 긴 히스토리를 봐야만 보인다. 1달치만 보면 절대 알 수 없다. 이 패턴을 포착하려면 긴 컨텍스트 + 그걸 처리할 컴퓨트가 동시에 필요하다.

LLM과의 비교: LLM 추론에서 "큰 컨텍스트 윈도우 = 비쌈"과 정확히 같은 트레이드오프. Meta는 이걸 GPU 기반 대규모 추론 인프라로 해결했다.

MTIA · 커스텀 실리콘중립

추천 시스템 ≠ LLM — 왜 Meta는 자체 칩이 필요했나

Matt Steiner · Meta VP · 관련: Broadcom, 이종 하드웨어 플릿
💡 핵심 통찰

LLM은 "embarrassingly parallel" 문제 — 배치 병렬 처리가 잘 되고 통신 오버헤드가 낮다. 반면 추천 시스템은 예시(example)마다 개인화 데이터 블롭이 붙어 IO 요구사항이 완전히 다르다. 더 두꺼운 네트워크 파이프, 더 높은 메모리 용량, 낮은 컴퓨트 대비 메모리 비율이 필요 → 이 워크로드에 맞는 커스텀 SKU의 필요성이 MTIA의 출발점.

LLM vs 추천 시스템의 차이:

LLM에서 "to be or not to be ___"의 정답은 객관적으로 높은 확률의 단어 하나다. 하지만 추천 시스템에서 "Matt에게 다음에 보여줄 최고의 광고"는 Matt가 누구냐에 따라 완전히 달라진다. 예시 하나하나에 "Matt는 자전거·텃밭·유아용품을 좋아한다"는 개인화 블롭이 첨부되어야 하니, 데이터 패킷 크기가 LLM과 전혀 다른 양상이 된다.

하드웨어 시사점: 개인화 블롭이 크면 클수록 칩을 먹이기 위해 더 넓은 네트워크 파이프, 더 많은 온-칩 메모리, 더 높은 HBM 대역폭이 필요하다. 표준 GPU SKU는 LLM 훈련에 최적화되어 있어 이 비율이 맞지 않을 수 있다. 이것이 Meta가 Broadcom과 협력해 MTIA를 만든 핵심 이유다.

단, GPU도 계속 쓴다: Steiner는 "모든 워크로드를 MTIA로 대체하는 게 아니다"라고 명확히 했다. GPU가 더 적합하거나 더 비용 효율적인 워크로드에는 GPU를 계속 사용. 이종 플릿 최적화가 목표다.

"For some circumstances, a custom skew with a different compute to memory ratio makes a lot of sense. For other applications, the GPU skew is much more performant or cost effective."
쉽게 풀어보기 — HBM과 메모리 바운드
HBM(High Bandwidth Memory)
GPU 위에 적층된 초고속 메모리. 연산 칩과 메모리 사이의 데이터 전송 속도를 결정한다. 메모리 바운드 워크로드에서 HBM이 부족하면 GPU가 대기 상태로 놀게 된다.
메모리 바운드 vs 컴퓨트 바운드
GPU가 연산 능력보다 메모리 접근 속도에 병목이 걸리면 '메모리 바운드', 반대면 '컴퓨트 바운드'. 추천 시스템 검색 단계는 메모리 바운드 성격이 강하다.
AlphaKernel · LLM 커널 자동생성Bullish

소프트웨어 엔지니어링 비용이 급락 — 이종 실리콘 최적화의 새 시대

Matt Steiner · Meta VP · 관련: 이종 하드웨어 플릿, 소프트웨어 인프라
💡 핵심 통찰

이종 하드웨어 플릿에서 각 하드웨어에 맞는 최적화 커널을 손으로 짜는 건 "모델 수 × 하드웨어 종류"의 행렬만큼 엄청난 인건비가 든다. 이제 LLM이 이 커널을 자동 생성 — 비용이 "way, way, way cheaper"해지면서, 이전에는 비용 때문에 안 하던 최적화를 이제 전부 할 수 있게 됐다. Steiner가 "소프트웨어 엔지니어링 수요가 가격은 내려가는데 100배로 늘었다"고 표현한 이유다.

최적화 커널 수요 증가
~100× 이전 대비
비용
급락 (LLM이 대신 생성)

배경: 이종 하드웨어 플릿에서 퍼포먼스를 극대화하려면 두 가지 선택지가 있었다. ① 추상화 레이어(번역 레이어)를 쓰면 배포는 쉽지만 하드웨어 고유 기능을 못 살려 비용 효율이 떨어진다. ② 하드웨어별 커스텀 커널을 직접 짜면 성능은 최고지만 전문 엔지니어가 시간을 갈아 넣어야 한다.

AlphaKernel의 등장: Meta가 발표한 논문(AlphaKernel 또는 AlphaEvolve로 언급)에서, LLM이 특정 바이너리·ML모델과 특정 하드웨어 페어에 맞는 최적화 커널을 자동 작성한다. 전문 엔지니어는 이제 직접 커널을 짜는 대신 LLM이 생성한 커널을 감독·검증하는 역할로 전환.

시사점: 이전에는 "이 바이너리를 다른 하드웨어로 옮기면 최적화 비용이 더 들어" 하고 포기했던 작업들을 이제 전부 시도할 수 있다. Meta 전체 레이어에서 "달러당 성능", "와트당 성능" 개선이 동시에 진행 중이다.

"The demand for custom software that is more performant than a generic abstraction layer has gone through the roof and every team at every layer is trying to do much better optimization."
2년 후 인프라 전망중립

데이터센터·컴퓨트 투자 지속 — 핵심 테마는 "엔드-투-엔드 최적화"

Matt Steiner · Meta VP · 관련: 데이터센터 설계, 네트워킹, 훈련/추론 인프라
💡 핵심 통찰

Steiner가 제시한 향후 2년 키워드는 "엔드-투-엔드 최적화" — 데이터센터 설계, 네트워크, 실리콘 SKU, 소프트웨어 인프라, ML 모델, 학습 데이터를 하나의 공동 최적화 문제로 접근한다는 것. 훈련과 추론 양쪽 모두 더 큰 모델·더 긴 컨텍스트를 더 낮은 비용으로 가능하게 하는 것이 목표.

투자 방향: ① ML 모델 훈련 인프라 대규모 확대 (더 많은 아키텍처 실험, 더 빠른 이터레이션) ② 대형 생성 모델 + 랭킹 모델의 추론 비용 절감 ③ 서빙 시점 컴퓨트·메모리 확대로 더 긴 시퀀스 히스토리·더 큰 컨텍스트 윈도우 처리 가능화 ④ AlphaKernel 기반 자동 최적화 전 레이어 확산.

LLM과 추천 시스템의 교차 투자: 양쪽 팀이 ML 모델 트레이너 최적화, 분산 시스템 인프라, 데이터센터 설계를 공동으로 개선하고 있어, 투자 효과가 양쪽 모두에게 돌아간다고 강조했다.

광고 비즈니스의 구조적 강점: "얼마를 투자할지, 얼마나 더 나은 결과가 광고주 수익에 연결되는지"가 명확한 광고 사업 특성상, 인프라 투자 ROI 계산이 다른 AI 플레이어보다 명확하다는 점을 Steiner는 은근히 강조했다.