Meta의 광고 추천 파운데이션 모델 GEM — 아키텍처, 학습 인프라
Meta가 광고 추천 모델 수백 개를 개별 개선하는 대신 LLM 규모 파운데이션 모델 GEM을 학습시키고 그 지식을 하위 모델에 전이하는 방식으로 전환 — Instagram 광고 전환 +5%, Facebook Feed +3%.
요약
Meta가 광고 추천 시스템(RecSys)을 위해 새로 깐 파운데이션 모델 GEM(Generative Ads Recommendation Model). 그동안 광고 추천에 들어가던 개별 모델 수백 개를 따로따로 개선하던 흐름을 뒤집고, LLM 규모로 학습한 GEM 한 채에서 지식을 하위 모델 fleet으로 전이하는 구조로 옮김. 시퀀스·비시퀀스·크로스 Feature를 각기 다른 아키텍처로 처리하고, Wukong·InterFormer·피라미드 병렬 구조를 조합. Q2 기준 Instagram 광고 전환 +5%, Facebook Feed 광고 전환 +3%.
내용
Meta 광고 추천 시스템에는 ads ranking, content recommendations, GenAI 기능까지 다양한 워크로드가 걸려 있고 매일 광고 모델이 사용자·광고 인터랙션을 수십억 건 단위로 학습. 각 도메인·서피스(Facebook / Instagram / Business Messaging)마다 사용자 행동 패턴이 달라, 모델 수백 개를 각자 굴리던 방식은 같은 진전을 여러 곳에서 따로 만들어내야 하는 비용 구조였음. 의미 있는 신호(클릭·전환)는 전체 인터랙션 대비 sparse하고, 광고 데이터 자체가 advertiser goal·creative format·measurement signal·user behavior로 다층이라 하나의 모델이 멀티모달·멀티소스 입력을 묶어내야 하는 게 출발점.
GEM은 LLM 규모(thousands of GPUs) 학습으로 fleet 전체에 흘려보낼 표현·지식을 한 곳에서 만든다는 발상. dense 파라미터·sparse embedding 양쪽이 다른 병렬화 전략을 요구하고, 학습-후 단계에서 student 모델로 지식을 전이하는 것까지 한 묶음으로 다뤄야 하는 점이 본문 줄기.
해결 / 접근
모델 아키텍처 — Feature 종류별 다른 구조
GEM은 사용자·광고 인터랙션 데이터를 시퀀스 Feature(활동 이력)와 비시퀀스 Feature(나이·위치·광고 포맷·creative representation)로 나눠 각기 다른 attention을 적용하면서 동시에 cross-feature 학습도 시킴. 이전 세대 모델 대비 동일 데이터·컴퓨트 기준 효율 4배.
- 비시퀀스 Feature → Wukong 아키텍처 기반 stackable factorization machine + cross-layer attention. 각 Wukong 블록은 vertical(깊이) / horizontal(폭) 양방향 스케일
- 시퀀스 Feature → 피라미드 병렬 구조. 인터랙션 모듈을 피라미드 형태로 쌓아 수천 이벤트 길이 사용자 시퀀스 처리. 새 오프라인 인프라가 더 긴 이력을 적은 저장 비용으로 다룸
- 크로스 Feature → InterFormer. 시퀀스 학습 레이어와 cross-feature interaction 레이어가 교대(interleaving)로 들어가 시퀀스 정보를 손실 없이 유지하면서 결합
- 멀티 도메인 학습 — Facebook·Instagram·Business Messaging 같은 서피스 간 cross-surface 인사이트는 공유하되, 예측 자체는 도메인별 objective(클릭·전환 등)에 맞춰 분리
Q3에 아키텍처 추가 개선으로 동일 데이터·컴퓨트 대비 성능 효율이 다시 2배.
지식 전이 — 수백 개 vertical model로 전파
GEM에서 사용자 직면 vertical model(VM)로 가는 길을 두 종류 — Direct Transfer는 GEM이 학습된 데이터 공간 안 주요 VM으로 직접 전이, Hierarchical Transfer는 GEM → 도메인별 FM → VM 순으로 단계 전이. 표준 Knowledge Distillation 대비 효율 2배.
기법 3종 조합:
- Knowledge Distillation — VM(student)이 GEM(teacher) 출력을 받아 학습하지만 FM 학습·평가 지연으로 stale supervision이 생기는 문제가 있음. Student Adapter라는 가벼운 컴포넌트가 teacher 예측을 최신 ground-truth로 다시 정렬해 student에게 전달
- Representation Learning — 원시 데이터에서 의미 있고 압축된 Feature를 자동 생성. 추론 오버헤드 없이 FM→VM 전이 효율을 끌어올리는 보조축
- Parameter Sharing — 여러 모델·컴포넌트가 같은 파라미터를 공유해 중복 줄이고 전이 통로를 만듦. latency-sensitive VM이 FM 풀 비용을 치르지 않고 표현·패턴을 재사용
학습 인프라 — 수천 GPU 효율화
dense / sparse 양쪽 다른 병렬화. dense는 HSDP(Hybrid Sharded Distributed Parallel)로 메모리·통신 비용 균형, sparse 임베딩 테이블은 데이터 병렬 + 모델 병렬을 합친 2D 방식.
GPU throughput을 끌어올리는 시스템 최적화:
- variable-length(jagged) 사용자 시퀀스용 in-house GPU 커널 + computation fusion
- PyTorch 2.0 graph-level compilation — activation checkpointing(메모리)·operator fusion(실행 효율) 자동화
- FP8 양자화(activation) + 통합 임베딩 포맷으로 메모리 풋프린트 압축
- NCCLX(Meta가 NVIDIA NCCL을 포크한 버전) — Streaming Multiprocessor 자원을 안 쓰는 GPU 통신 collective로 통신·연산 contention 제거
학습 오버헤드 축소 — trainer init / data reader setup / checkpointing / PyTorch 2.0 컴파일 시간을 다듬어 job 시작 시간 5x 단축, PyTorch 2.0 컴파일 시간은 캐싱으로 7x 단축. 탐색 단계엔 가벼운 모델 변형으로 실험의 절반 이상을 처리하고, post-training 단계엔 학습 ↔ 지식 생성 사이 트래픽 공유로 연산 수요 압축.
결과 / 참고
- Q2 적용 효과: Instagram 광고 전환 +5%, Facebook Feed 광고 전환 +3%
- 효율 — 이전 세대 광고 추천 ranking 모델 대비 동일 데이터·컴퓨트 기준 4배. Q3 아키텍처 개선으로 추가 2배
- 학습 인프라 — effective training FLOPS 23x, 사용 GPU 수 16x, MFU 1.43x
- 지식 전이 — 표준 Knowledge Distillation 대비 2배 효율
- job 시작 시간 5x 단축, PyTorch 2.0 컴파일 시간 7x 단축(캐싱)
- 참고 논문 — Wukong (arXiv 2403.02545), InterFormer (arXiv 2411.09852), Student Adapter (arXiv 2502.17494), Knowledge Distillation (arXiv 1503.02531)
- 출처: Engineering at Meta, "Meta's Generative Ads Model (GEM): The Central Brain Accelerating Ads Recommendation AI Innovation"