Meta Capacity Efficiency — Unified AI 에이전트로 수백 MW 회수한 구조
Meta가 MCP Tools + Skills 이중 구조의 AI 에이전트 플랫폼으로 수백 MW와 조사 시간 10h→30m를 회수한 사례입니다.
요약
Meta Capacity Efficiency 조직은 3B+ 사용자 규모에서 0.1% 성능 회귀도 상당한 전력 추가 소비로 이어진다는 스케일 제약 속에서, 시니어 효율 엔지니어의 도메인 지식을 재사용 가능한 스킬로 인코딩한 Unified AI Agent Platform을 구축했습니다. 그 결과 수백 MW 전력(수십만 호 미국 가정 1년치)을 회수했고, 수동 조사에 약 10시간 걸리던 진단을 약 30분으로 압축했습니다.
문제 구조 — 공격과 수비 양면에 공통된 인간 엔지니어링 시간 병목
- Offense: 기존 시스템을 더 효율적으로 만드는 사전 기회 발굴·배포
- Defense: 프로덕션 리소스 사용 모니터링, 회귀 탐지, 원인 PR 역추적, 완화 배포
두 쪽 모두 병목은 인간 엔지니어링 시간 — 프로파일링 쿼리, 최적화 기회 설명·문서·과거 예시 검토, 최근 배포 확인, 장애 관련 사내 논의 조사 등에 엔지니어 시간이 소모됩니다. "AI가 조사와 해결을 처리하면 어떨까?"가 출발점이었습니다.
이중 아키텍처 — MCP Tools + Skills
공격·수비가 같은 구조를 가진다는 발견이 돌파구였습니다. 두 개의 별도 AI 시스템이 아니라 하나의 플랫폼을 2 레이어로 구축:
- MCP Tools: LLM이 코드를 호출하는 표준 인터페이스. 각 도구는 한 가지만 수행 — 프로파일링 데이터 쿼리, 실험 결과 가져오기, 설정 이력 조회, 코드 검색, 문서 추출
- Skills: 성능 효율성에 대한 도메인 전문성을 인코딩. 어떤 도구를 쓰고 결과를 어떻게 해석할지 LLM에게 알려줌 (예: "엔드포인트 지연 회귀에는 상위 GraphQL 엔드포인트를 참조하라", "해당 함수가 직렬화를 처리하면 최근 스키마 변경을 찾아라")
같은 Tools가 offense·defense 양쪽을 구동하고 Skills만 달라집니다.
수비 — FBDetect + AI Regression Solver
- FBDetect: Meta in-house 회귀 탐지 도구로 노이지 프로덕션에서 0.005% 회귀도 감지 (SOSP24 발표)
- 전통 기법: 회귀 함수를 최근 PR과 상관 분석해 원인 PR 역추적
- AI Regression Solver: 사내 코딩 에이전트가 회귀를 자동 수정 PR로 전환
- Tools로 컨텍스트 수집 — 회귀 함수·원인 PR·변경 파일·라인
- Skills로 도메인 전문성 적용 — 코드베이스·언어·회귀 유형별 완화 지식 (예: 로깅 회귀는 샘플링 증가로 완화)
- 원인 PR 작성자에게 수정 PR 전송
공격 — 효율 기회 → PR 자동화
엔지니어가 기회를 보고 AI 생성 PR을 요청. 수 시간 조사가 수 분 리뷰·배포로 전환. 파이프라인은 수비 AI Regression Solver를 그대로 반영:
- Tools로 컨텍스트 수집 — 기회 메타데이터, 최적화 패턴 문서, 유사 해결 예시, 대상 파일·함수, 검증 기준
- Skills로 전문성 적용 — 기회 유형별 지식 인코딩 (예: CPU 사용 절감을 위한 함수 메모이제이션)
- 후보 수정 생성 — 구문·스타일 검증, 편집기에 1클릭 적용 가능 형태로 노출
같은 Tools 사용, 차이는 Skills.
통합 효과 — 복합 확장
통합 아키텍처 1년 내에 같은 기반이 효율 질의 대화형 어시스턴트·용량 계획 에이전트·개인화 기회 추천·가이드 조사 워크플로·AI 보조 검증으로 확장됐습니다. 각 새 기능은 기존 Tools를 새 Skills와 조합해 신규 데이터 통합이 거의 불필요합니다.
성과
- 수백 MW 전력 회수 (수십만 호 미국 가정 1년치)
- 수동 조사 ~10h → ~30m 압축
- 엔지니어가 방어적 트리아지에서 AI 분석 리뷰로 전환 (오전 시간 복구)
- 기회 해결 시 AI 보조 코드가 제공되어 "어디서부터 시작?" 질문이 "리뷰하고 배포" 로 전환
참고
Hyperscale 인프라에서 성능 회귀·효율 기회를 AI로 자동화하려는 팀이 참고할 수 있습니다. MCP Tools + Skills 2 레이어 설계, 공격·수비가 같은 구조를 공유해 Tools 재사용·Skills 분기로 구현된 점이 핵심입니다.