AGENTS.md 긍정 규칙(~해라) 보다 부정 규칙(~하지 마라) 가 더 민감함을 확인,다른 mcp 사용과 연결 예시
AGENTS.md에 금지형으로 라우팅 규칙을 적고 잡일을 MCP 워커로 빼서 한 주간 184/520 호출을 오프로드한 측정 기록.
AGENTS.md 금지 규칙으로 Codex 잡일을 MCP 워커로 뺀 후기
AGENTS.md에 금지형으로 라우팅 규칙을 적고 잡일을 MCP 워커로 빼서 한 주간 184/520 호출을 오프로드한 측정 기록.
요약
작성자가 본인 환경에서 Codex 토큰이 어디로 빠지는지 일요일 하루 들여 살핀 글이다.
12개 필드 이름 변경, csv를 마크다운 표로 만들기, 체인지로그에서 날짜 뽑기 같은 자잘한 처리 작업이 절반 가까이를 차지하는 걸 확인하고, AGENTS.md의 라우팅 규칙을 금지 형태로 적은 다음 자잘한 처리 작업을 MCP 워커로 빼는 구성을 적용했다.
한 프로젝트, 한 주 기준 측정값까지가 글의 범위다.
작성자의 두 가지 관찰
첫째, "값싼 모델을 X에 써라" 같은 권장 형태는 무시되는 경우가 적지 않았다. 반대로 "Codex로는 다음을 하지 말 것 — 대량 재포맷, 한 필드만 추출하는 작업, 어차피 검토할 분류"처럼 금지 형태로 적었더니 본인 환경에서는 더 잘 지켜졌다고 한다. 작성자가 직접 "at least for me"라고 단서를 단 본인 환경 관찰이라, 모델 일반에 보장된 동작은 아니다.
둘째, 구성 자체는 단순하다.
- MCP 서버 1개에 도구 1개를 두고 Codex가 표준 MCP 설정으로 호출한다.
- 기본 워커는 DeepSeek V4 Flash로 잡았고, 1M 컨텍스트와 가격이 선택 이유였다.
- base_url 한 줄만 바꾸면 ollama, vllm, lm studio 같은 openai 호환 엔드포인트도 쓸 수 있다.
- 워커는 텍스트만 처리하고 도구 호출이나 파일 접근이 없다. 출력은 Codex 컨텍스트로 들어가 사람이 검토한다.
측정값과 적용 범위
작성자가 한 프로젝트에서 약 한 주간 측정한 값이다.
| 항목 | 값 |
|---|---|
| 전체 호출 | 약 520건 |
| 워커로 빠진 호출 | 184건 |
| 워커 측 비용 | $0.34 |
| 회피된 Codex 비용(작성자 추정) | $5~9 |
| 워커 지연 | 3~25초 |
워커가 맡는 영역은 입력이 명확하고 어차피 검토할 작업이다. 반대로 기획, 실제로 출시되는 코드, 익숙하지 않은 저장소 영역, 검토에서 놓치면 안 되는 출력은 Codex에 그대로 둔다.
회피 비용 $5~9는 작성자가 토큰 믹스에 따라 추정한 구간이다. 작은 호출을 길게 엮으면 워커 지연이 누적된다고 본문이 적었다.
댓글에서 남긴 점
- 유저1 — 단순 규칙 붙여넣기 대비 워커 도구 방식의 이점은 호출 기록이라는 보강. 비싼 모델이 도구를 호출해야 워커로 빠지고, 입력 크기·모델·지연·비용을 모두 로깅할 수 있어 라우팅을 디버깅할 수 있다는 주장이다. 본인도 출시되는 코드는 비싼 루프에 그대로 둔다고 적었다.
- 유저2 — Codex 측 캐시 미스가 발생하면 전체 비용이 오히려 늘 수 있지 않냐는 의문. 본문이 다루지 않은 항목이라 미해결로 남아 있다.
범위와 한계
- 측정 표본은 한 프로젝트, 약 한 주, 작성자 1인 환경이다.
- "금지 형태가 더 잘 지켜졌다"는 작성자 본인 관찰("at least for me")이며, 모델 일반에 보장된 동작은 아니다.
- 작성자는 모호한 카테고리 분류에서 정확도가 5~10% 정도 떨어진다고 적었지만, 평가 방법은 본문에 없다.
- 캐시 미스로 전체 비용이 늘 가능성은 댓글에서 제기된 미해결 의문이다.
세부 AGENTS.md 템플릿과 코드는 원문 참고. 댓글 원문도 원문 참고.