실제 서비스 패치 예시로 모델별 성능 비교해보기. — Opus 4.7 / GPT-5.4 / GPT-5.5
Stet 평가 프레임워크 제작자가 Opus 4.7 / GPT-5.4 / GPT-5.5 를 평가함 ( 단일 작업 성공률 / 검증 성공률 비교 / 별차이 없음 / 트레이드 오프 있음 )
요약
작성자가 두 오픈소스 저장소(Zod 27과제, graphql-go-tools 29과제, 합 56과제)의 실제 머지 커밋을 코딩 과제로 만들어 GPT-5.5, GPT-5.4, Opus 4.7을 같은 척도로 돌려본 비교 글이다.
결론은 "한 모델이 모든 것을 이긴다"가 아니다.
현재 비교 모델은 모두 보편적으로 코딩 작업을 잘 하지만, 트레이드 오프가 있다는게 결론.
이 두 저장소·56과제 안에서 GPT-5.5는 테스트와 코드 리뷰를 모두 통과하는 통과율이 가장 좋고
Opus 4.7은 가장 작은 작업 범위로 머지에 성공한다.
각 모델은 자기 하네스 환경에서 API 기본 파라미터로 호출됐다 (추론 레벨 high).
- Opus 4.7 → Claude Code (
claude -p) - GPT-5.5, GPT-5.4 → OpenAI Codex CLI (
codex exec)
56과제 합산 비교
| 지표 | Opus 4.7 | GPT-5.4 | GPT-5.5 |
|---|---|---|---|
| 테스트 통과 | 33 | 31 | 38 |
| 이전 사람이 바꾼 패치와 동등 판정 | 19 | 35 | 40 |
| 테스트와 리뷰 모두 통과(clean pass) | 10 | 11 | 28 |
| 평균 변경 범위(적을수록 좋음) | 0.20 | 0.34 | 0.32 |
| 평균 과제당 시간 | 11분 18초 | 8분 24초 | 6분 56초 |
| 추정 실행 비용 | $3.43 | $2.39 | $2.86 |
작성자가 가장 중요하게 본 행은 "테스트 통과"가 아니라 "테스트와 리뷰를 모두 통과한 사례(clean pass)"다. 이 척도에서 GPT-5.5(28건)가 Opus 4.7(10건)·GPT-5.4(11건)보다 약 3배 많았다.
저장소별 결과
저장소에 따라 결과의 무게가 갈렸다.
- Zod 27과제: GPT-5.5와 Opus 4.7이 테스트 통과 수에서 12로 같았지만 clean pass는 GPT-5.5 10 / Opus 4.7 5로 갈렸다. GPT-5.4는 테스트 9, clean pass 5.
- graphql-go-tools 29과제: GPT-5.5가 테스트 26·동등 22·clean pass 18로 앞섰다. Opus 4.7은 테스트는 21을 통과했지만 clean pass는 5에 머물렀다. GPT-5.4는 테스트 22·clean pass 6.
작은 패치가 동등 판정을 받지 못한 흐름
Opus 4.7이 변경 범위는 가장 작지만 이전 사람이 바꾼 패치와 동등 판정을 받지 못한 사례는 동반 변경 누락 쪽에서 드러난다.
Zod에는 Node와 Deno 양쪽 트리가 있어 src/ 경로 테스트만 통과해도 Deno 미러는 갱신되지 않은 채 남는다. CIDR 검증 변경 과제에서 Opus 4.7은 4개 파일을 손댔고 GPT-5.5는 11개 파일을 손대 양쪽 배포 경로까지 같이 갱신했다. 이전 사람이 바꾼 패치와 동등하지 않다는 판정은 후자의 동반 변경 차이 때문이었다.
graphql-go-tools의 PR #1155(gRPC 데이터소스의 반복 스칼라 필드, 요청 빌드, 응답 마샬링, null/오류 응답, 비활성 데이터소스, 동적 클라이언트가 함께 묶인 과제)에서는 Opus 4.7이 패치를 만들지 못했고 GPT-5.5만 테스트·동등·리뷰를 모두 통과했다.
변경 범위 트레이드오프
graphql-go-tools 평균 패치 크기와 변경 범위는 같은 방향을 가리킨다.
| 지표 | Opus 4.7 | GPT-5.4 | GPT-5.5 |
|---|---|---|---|
| 평균 패치 크기 (graphql-go-tools) | 약 19KB | 약 27KB | 약 33KB |
| 변경 범위 (graphql-go-tools) | 0.19 | 0.32 | 0.34 |
다만 채점 기준이 "줄어든 바이트 수"가 아니라 "필요한 만큼만 바꿨는가"여서, GPT-5.5는 패치가 더 큰데도 과제 해결에 필요한 만큼만 코드를 바꿨는지에서 약간 앞섰다는 게 작성자 설명이다.
자세한 채점 기준 8개와 craft/discipline 세부 점수, 두 패치 autopsy의 코드 수준 변경은 원문 참고.
댓글에서 나온 의문
- 추론 레벨: "Opus 기본은 이제 xhigh이지 않냐"는 질문이 있었다. 작성자는 "GPT의 xhigh는 high보다 떨어진 사례가 있어 baseline으로 high를 골랐고, 모든 추론 레벨을 도는 후속 실험을 준비 중"이라고 답했다.
- 변경 범위 비교 보강: "두 모델이 모두 통과한 사례에서만 변경 범위를 비교해 봐야 한다"는 지적이 나오자, 작성자가 데이터를 다시 잘라 두 모델 모두 테스트 통과 시 0.190 대 0.326, 동등까지 좁히면 0.190 대 0.294, 테스트+리뷰까지 좁히면 0.190 대 0.302라고 보강했다. 두 모델이 모두 맞을 때도 Opus 4.7이 더 작은 패치를 쓴다.
- 본문과 다른 방향의 사용자 후기: "GPT-5.5 xhigh와 Opus 4.7 xhigh를 같이 써 보면 5.5의 해법이 더 낫지만 4.7 쪽이 더 완성도 있게 동작했다"는 댓글이 있었다.
범위와 한계
- 두 저장소(Zod, graphql-go-tools)는 임의 선택이다. 모든 코딩 과제에 대한 주장이 아니다.
- 56과제는 작성자 본인이 "여전히 작은 표본"이라고 적은 규모다. 한 과제만 결과가 바뀌어도 저장소별 비율이 몇 점씩 움직인다.
- 모델별 1회 실행, 단일 시드. 가까운 차이는 다시 돌리면 뒤집힐 수 있다.
- 동등성과 채점 기준 판정은 GPT-5.4 한 종이 맡았다. 판정 모델이 GPT 계열이라 GPT 쪽에 유리하게 채점될 가능성(family bias)을 작성자 본인이 명시했다(다만 GPT-5.5가 GPT-5.4를 분명히 앞섰고 Opus 4.7의 변경 범위 우위가 그대로 남아 이 편향만으로 결과 전체가 설명되지는 않는다고 봤다).
- 추론 레벨은 모두 high. 같은 모델을 다른 실행 환경에 넣으면(예: Opus 4.7을 Codex CLI에, GPT-5.5를 Claude Code에) 결과가 달라질 수 있다는 점도 작성자가 직접 적었다.
- 비용 수치($3.43 / $2.39 / $2.86)는 추정치다.