Meta의 ML 실험 자율 에이전트 REA 구축과 프로덕션 성과
Meta가 광고 랭킹 모델 가설 생성·학습·디버깅·반복까지 multiday 워크플로우로 돌리는 자율 에이전트 REA 구축, 6개 모델 정확도 2배 + 엔지니어링 아웃풋 5배
요약
Meta가 광고 랭킹 ML 실험의 수일~수주짜리 사이클을 사람이 매 단계 끌고 가는 병목 구조에서 벗어나기 위해 Ranking Engineer Agent(REA)를 구축. Hibernate-and-Wake로 학습 작업 동안 대기 후 자동 재개, 과거 실험 DB와 ML 리서치 에이전트를 교차 합성한 가설 생성, 사전 승인 GPU 예산 안에서 Validation→Combination→Exploitation 3단계로 진행. 첫 프로덕션 적용에서 6개 모델 정확도 2배, 엔지니어 3명이 8개 모델 처리.
내용
Meta 광고 시스템은 Facebook·Instagram·Messenger·WhatsApp에서 수십억 명에게 개인화 경험을 전달, 그 뒤에 분산 ML 모델이 지속 진화. 모델 최적화 한 사이클은 가설 설계 → 실험 설계 → 학습 실행 → 복잡한 코드베이스 디버깅 → 결과 분석 → 반복으로, 한 바퀴에 수일~수주 소요. 모델이 성숙할수록 의미 있는 개선 발견이 어려워져 수동·순차 실험 자체가 혁신 병목.
기존 AI 어시스턴트의 한계는 명확함 — 가설 초안·설정 파일·로그 해석 같은 개별 단계 도움은 가능하지만 reactive·task-scoped·session-bound라 실험을 end-to-end로 못 굴림. 엔지니어가 매번 다음 동작 결정·컨텍스트 재구축·장시간 작업 진척·실패 디버깅을 해야 함.
REA가 풀어야 했던 핵심 챌린지 셋:
- Long-Horizon Asynchronous Workflow Autonomy — 학습이 시간/일 단위, 세션 묶인 어시스턴트로는 관리 불가
- High-Quality Diverse Hypothesis Generation — 실험 품질은 가설 품질에 의해 결정, 단일 소스로는 다양성 부족
- Resilient Operation — 인프라 장애·OOM·loss explosion 같은 루틴 실패에 사람 호출 없이 자율 대응
해결 / 접근
Hibernate-and-Wake 메커니즘
- 에이전트가 학습 작업 launch 시 대기를 백그라운드 시스템에 위임 → 자기 자신은 종료해 리소스 절약 → 작업 완료 시 그 자리에서 자동 재개
- 인간 모니터링 없이 multi-week 워크플로우 가능
- 내부 AI 에이전트 프레임워크 Confucius (arxiv 2512.10398) 위에 구축, 코드 생성·작업 스케줄러·실험 추적·코드베이스 탐색 SDK 통합
Dual-Source Hypothesis Engine
- Historical Insights Database: 과거 실험 큐레이트 저장소, in-context learning과 성공·실패 패턴 인식
- ML Research Agent: 베이스라인 모델 설정 조사, 새 최적화 전략 제안 (Historical DB 활용)
- 둘을 합성해 단일 소스로는 안 나올 설정을 발굴
- 가장 큰 임팩트는 아키텍처 최적화 + 학습 효율화 기법 결합 — 교차 합성 방법론 결과
3-Phase Planning Framework (사전 GPU 예산 승인)
- Validation: 서로 다른 소스의 개별 가설을 병렬 검증해 품질 베이스라인 수립
- Combination: 유망한 가설을 결합해 시너지 탐색
- Exploitation: 가장 유망한 후보군을 승인 예산 안에서 집중 최적화
Resilient Execution
- 실패 시 사람을 기다리지 않고 사전 정의된 가드레일 안에서 plan 조정
- 공통 실패 패턴 runbook 참조: 명확한 OOM 작업 제외, loss explosion 같은 학습 불안정 신호 시 우선순위 조정, 인프라 장애는 first principles로 디버그
- engineer는 지속 모니터링이 아니라 주기적 oversight만
시스템 아키텍처
- REA Planner + REA Executor + 공유 Skill·Knowledge·Tool 시스템
- 실행 플로우: 엔지니어가 Planner의 hypothesis generator와 협업해 plan 수립 → Executor에 export → agent loop + wait state로 비동기 작업 관리
- 지식 플로우: experiment logger가 결과·핵심 지표·설정을 hypothesis experiment insight DB에 기록 → hypothesis generator가 다음 라운드에 활용 → 시간이 갈수록 시스템 지능 누적
가드레일
- Meta 광고 랭킹 모델 코드베이스에 한정 작동
- 엔지니어 preflight 체크리스트 리뷰로 명시적 접근 권한 부여
- 컴퓨트 예산 사전 확인, 임계 도달 시 halt·pause
결과 / 참고
첫 프로덕션 검증 (6개 모델)
- 평균 모델 정확도 2배 향상 (vs 베이스라인 접근)
- 광고주 결과·플랫폼 경험 직접 개선
엔지니어링 생산성
- 모델당 엔지니어 2명이 필요하던 작업을 3명이 8개 모델 처리 → 5배 아웃풋
- 동일 기간 모델 개선 제안 1건 → 5건
메타
- 출처: Engineering at Meta (2026-03-17)
- 프레임워크: Confucius (arxiv 2512.10398)
- 적용 범위: Meta ads ranking models (ML 실험 단계)
- 미래 방향: 가설 생성 전용 모델 fine-tune, 분석 도구 확장, 다른 도메인 적용. Privacy·security·governance 우선순위 유지