Meta의 AI 워크로드 프로파일링·최적화 플랫폼 Zoomer

요약

Meta가 만든 자동 디버깅·최적화 플랫폼 Zoomer. 수십만 GPU 운영 환경에서 비효율을 사람 손으로 찾아내는 게 더 이상 가능하지 않은 규모에 도달한 게 출발점. Kineto·StrobeLight·DCGM·NCCLX 같은 사내 트레이싱 도구를 한 데 묶고 Manifold blob storage 위에 fault-tolerant 파이프라인으로 깐 뒤, 자동 병목 분류 + auto-fix diff + one-click 재실행까지 제공. 매일 수만 건 프로파일링 리포트.

인사이트

사람이 모니터링 대시보드로 GPU 워크로드를 들여다보던 시절을 지나, 학습 잡 하나가 수만~수십만 GPU에 분산되고 추론도 일일 수백조 회 단위로 도는 환경에서는 비효율 한 점도 무시 못 할 비용으로 누적됨. Meta는 수동 분석을 자동 분석으로 옮긴 자체 플랫폼 한 채를 만들었고, 그 플랫폼이 단순 프로파일러가 아니라 "auto-fix diff·notebook·one-click 재실행"까지 산출한다는 점이 본 글의 줄기.

학습 워크로드는 며칠~몇 주 도는 잡이라 시작 시점 noise를 피해야 의미 있는 신호가 잡힘 — Zoomer는 학습 iteration 550–555 시점에 자동 트리거를 걸어 안정 상태 성능을 캡처하는 식으로 이 문제를 다룸. 추론 워크로드는 즉시 디버깅이나 자동 load testing·벤치마크에 묶여 트리거.

해결 / 접근

3계층 아키텍처

Infrastructure & Platform Layer — Manifold(Meta blob storage)에 trace 데이터 저장. 수천 호스트 동시 수집을 받아내는 fault-tolerant 처리 파이프라인. redundant worker로 피크 시점 대량 요청 처리.

Analytics & Insights Engine — 분석 핵심. 여러 전문 analyzer가 붙어 있음:

GPU trace → Kineto 통합 + NVIDIA DCGM
CPU 프로파일링 → StrobeLight
호스트 메트릭 → dyno telemetry
분산 학습 통신 패턴, straggler 탐지, 메모리 할당 프로파일링(GPU memory snooping 포함), 추론 request/response 프로파일링

엔진이 자동으로 efficiency anti-pattern을 잡고 권장 사항을 도출.

Visualization & UI Layer — 수천 rank GPU 활동 타임라인, multi-iteration 분석, percentile 드릴다운 대시보드, Perfetto 통합 trace 뷰어, GPU 효율 heat map, 자동 인사이트 요약.

트리거·캡처·분석 흐름

학습 iteration 550–555 자동 트리거(stable-state 캡처) / 추론 on-demand 또는 자동 load test 연동. 한 세션에서 동시에 끌어올리는 데이터:

GPU 메트릭 — SM 사용률, GPU 메모리 사용률, GPU busy time, memory bandwidth, Tensor Core 사용률, 전력 소비, clock frequency (DCGM)
실행 trace — 커널 단위 GPU 연산, 메모리 전송, CUDA API 호출, 통신 collective (PyTorch Profiler·Kineto)
호스트 메트릭 — CPU·메모리·네트워크 I/O·storage access·시스템 병목 (dyno telemetry)
애플리케이션 어노테이션 — 학습 iteration, forward/backward, optimizer step, data loading
추론 — request rate, server latency, active request, GPU 메모리 할당, request latency 분해 (StrobeLight Crochet), serving 파라미터 분석, Thrift request 단위 프로파일링
통신 — NCCL collective, inter-node 통신 패턴, 분산 워크로드 네트워크 사용률

분산 분석 파이프라인이 이 raw 데이터를 받아 자동으로 분류:

Straggler Detection — 분산 학습에서 느린 rank를 비교 분석으로 식별
Bottleneck Analysis — CPU-bound / GPU-bound / memory-bound / communication-bound 자동 분류
Critical Path Analysis — 가장 긴 실행 경로를 찾아 최적화 우선순위 결정
Anti-Pattern Detection — 룰 기반 효율 이슈 식별 + 권장 사항 생성
Parallelism Analysis — tensor / pipeline / data / expert 병렬화 상호작용
Memory / Load Imbalance — GPU 메모리 패턴, 누수 추적, rank별 워크로드 분포

워크로드 종류별 특화 기능

학습 — Straggler Analysis로 sharding 불균형·하드웨어 이슈 진단, Critical Path Analysis로 성능 개선 폭 예측, Trace Manipulation으로 rank당 2GB+ trace 파일 압축·필터·결합·세분화.

추론 — Single-Click QPS Optimization은 병목 식별 후 자동 load test 트리거 → 모델 특성에 따라 QPS +2%~+50%. Crochet 프로파일러 통합으로 Thrift request 단위 분석, queue time 병목과 serving 비효율 추적. 실시간 GPU 메모리 할당 추적.

GenAI — LLM Zoomer는 100k+ GPU 워크로드와 N차원 병렬화 시각화 / GPU 효율 heat map. SFT·DPO·ARPG post-training 워크플로 지원, generator·trainer 프로파일링 분리.

공통 — Holistic Trace Analysis(HTA)는 통신 오버헤드·워크로드 불균형·커널 비효율을 함께 진단하고 load balancing을 권장. Zoomer Actionable Recommendations Engine(Zoomer AR) 가 anti-pattern 자동 탐지 + ML 기반 권장으로 auto-fix diff·optimization notebook·one-click 재실행 산출. NVIDIA GPU·AMD MI300X·MTIA·CPU-only 모두 동일 인터페이스로 다룸.

결과 / 참고

광고 모델 학습 시간 75% 단축 → 전력 소비 78% 절감 (2024)
비효율 메모리 복사를 1줄 코드 변경으로 수정 → QPS +20%
GPU·CPU serving 파라미터 자동 튜닝 → 전력 소비 10–45% 절감
32k GPU 벤치마크 — broadcast 이슈 해결로 30% 속도 향상
64k GPU 환경 — 1일 만에 25% 속도 향상
추론 Single-Click QPS Optimization — 모델별 QPS +2%~+50%
운영 규모 — 매일 수만 건 프로파일링 리포트, Meta GPU 워크로드 최적화의 de-facto 도구
출처: Engineering at Meta, "Zoomer: Powering AI Performance at Meta's Scale Through Intelligent Debugging and Optimization"

요약

인사이트

해결 / 접근

3계층 아키텍처

Analytics & Insights Engine — 분석 핵심. 여러 전문 analyzer가 붙어 있음:

GPU trace → Kineto 통합 + NVIDIA DCGM
CPU 프로파일링 → StrobeLight
호스트 메트릭 → dyno telemetry
분산 학습 통신 패턴, straggler 탐지, 메모리 할당 프로파일링(GPU memory snooping 포함), 추론 request/response 프로파일링

엔진이 자동으로 efficiency anti-pattern을 잡고 권장 사항을 도출.

트리거·캡처·분석 흐름

학습 iteration 550–555 자동 트리거(stable-state 캡처) / 추론 on-demand 또는 자동 load test 연동. 한 세션에서 동시에 끌어올리는 데이터:

GPU 메트릭 — SM 사용률, GPU 메모리 사용률, GPU busy time, memory bandwidth, Tensor Core 사용률, 전력 소비, clock frequency (DCGM)
실행 trace — 커널 단위 GPU 연산, 메모리 전송, CUDA API 호출, 통신 collective (PyTorch Profiler·Kineto)
호스트 메트릭 — CPU·메모리·네트워크 I/O·storage access·시스템 병목 (dyno telemetry)
애플리케이션 어노테이션 — 학습 iteration, forward/backward, optimizer step, data loading
추론 — request rate, server latency, active request, GPU 메모리 할당, request latency 분해 (StrobeLight Crochet), serving 파라미터 분석, Thrift request 단위 프로파일링
통신 — NCCL collective, inter-node 통신 패턴, 분산 워크로드 네트워크 사용률

분산 분석 파이프라인이 이 raw 데이터를 받아 자동으로 분류:

Straggler Detection — 분산 학습에서 느린 rank를 비교 분석으로 식별
Bottleneck Analysis — CPU-bound / GPU-bound / memory-bound / communication-bound 자동 분류
Critical Path Analysis — 가장 긴 실행 경로를 찾아 최적화 우선순위 결정
Anti-Pattern Detection — 룰 기반 효율 이슈 식별 + 권장 사항 생성
Parallelism Analysis — tensor / pipeline / data / expert 병렬화 상호작용
Memory / Load Imbalance — GPU 메모리 패턴, 누수 추적, rank별 워크로드 분포

워크로드 종류별 특화 기능

GenAI — LLM Zoomer는 100k+ GPU 워크로드와 N차원 병렬화 시각화 / GPU 효율 heat map. SFT·DPO·ARPG post-training 워크플로 지원, generator·trainer 프로파일링 분리.

결과 / 참고

광고 모델 학습 시간 75% 단축 → 전력 소비 78% 절감 (2024)
비효율 메모리 복사를 1줄 코드 변경으로 수정 → QPS +20%
GPU·CPU serving 파라미터 자동 튜닝 → 전력 소비 10–45% 절감
32k GPU 벤치마크 — broadcast 이슈 해결로 30% 속도 향상
64k GPU 환경 — 1일 만에 25% 속도 향상
추론 Single-Click QPS Optimization — 모델별 QPS +2%~+50%
운영 규모 — 매일 수만 건 프로파일링 리포트, Meta GPU 워크로드 최적화의 de-facto 도구
출처: Engineering at Meta, "Zoomer: Powering AI Performance at Meta's Scale Through Intelligent Debugging and Optimization"

Meta의 AI 워크로드 프로파일링·최적화 플랫폼 Zoomer

요약

인사이트

해결 / 접근

3계층 아키텍처

트리거·캡처·분석 흐름

워크로드 종류별 특화 기능

결과 / 참고

댓글 0

Meta의 AI 워크로드 프로파일링·최적화 플랫폼 Zoomer

요약

인사이트

해결 / 접근

3계층 아키텍처

트리거·캡처·분석 흐름

워크로드 종류별 특화 기능

결과 / 참고

댓글 0