GPT-5.5 추론 강도 4단계를 26개 PR 과제로 비교한 결과
GPT-5.5 추론 강도 4단계를 GraphQL-go-tools 26개 PR에 돌려 테스트 통과 외에 의미 일치·리뷰 통과·비용까지 잰 비교 결과.
GPT-5.5 추론 강도 4단을 26개 PR 과제로 비교한 결과
GPT-5.5 추론 강도 4단계를 GraphQL-go-tools 26개 PR에 돌려 테스트 통과 외에 의미 일치·리뷰 통과·비용까지 잰 비교 결과.
요약
GPT-5.5(Codex 0.128.0)를 추론 레벨 4단계(low / medium / high / xhigh)로 나눠 GraphQL-go-tools 저장소의 매칭된 PR 26개에 시드 1회씩 돌린다.
- 테스트 통과 외에 인간 PR과 의미가 같은지(equivalence)·
- 리뷰어가 받아들일 만한지(code-review pass)·
- 인간보다 더 많은 코드를 건드렸는지(footprint risk)
- 비용까지
함께 잰 비교 글이다.
작성자는 본인 환경에서의 1회 실행 기준임을 명시하고, 결과를 다른 저장소로 일반화하지 말라고 미리 적어 둔다.
단계별 결과
테스트 통과만 보면 low와 medium이 21/26으로 같다. 같은 21/26 안에서 medium이 인간 PR과 의미가 더 맞고 리뷰 평가도 더 좋다.
| 지표 | low | medium |
|---|---|---|
| 테스트 통과 | 21/26 | 21/26 |
| 의미 일치 | 4/26 | 11/26 |
| 리뷰 통과 | 3/26 | 5/26 |
| 유지보수·스타일 채점 합계 | 2.311 | 2.604 |
작성자는 추론 레벨이 정답률보다 패치의 성격(어림짐작 패치냐, 저장소 도메인을 모델링한 패치냐)을 바꾼다고 본다.
medium → high 구간은 실용적인 도약 구간이다. 더 많은 과제가 통합과 리뷰까지 통과하고, 비용도 늘지만 절대적이지는 않다. 작성자는 이 지점을 일상용 기본값으로 권장한다.
high → xhigh는 품질 모드 성격이다. xhigh는 의미 일치·리뷰 통과의 평균과 중앙값이 모두 high보다 높아서 한두 개가 평균을 끌어올린 게 아니다.
동시에 xhigh는 인간 패치보다 더 많은 줄을 건드리는 경향이 있고, 추가된 줄의 상당 부분은 테스트·픽스처·기대 출력이라 검토·유지보수해야 할 코드 양이 함께 늘어난다.
비용
- high가 medium의 약 1.43배.
- xhigh가 high의 약 2.18배.
- xhigh의 중앙값 비용도 high보다 여전히 높다.
- 이번 실행만으로 작성자 주간 20x 쿼터의 50% 이상이 소진됐다.
단조 개선이 아니다
- PR #1240(정리·통합 작업): low와 high가 통과했고, xhigh는 의미는 맞지만 리뷰에서 떨어진 사례.
- PR #1155(gRPC 데이터소스 견고화): high가 통과한 반면 xhigh는 비활성화 동작과 잘못된 리스트 처리로 떨어진 사례.
평균적으로는 단계가 올라갈수록 좋지만 개별 과제 단위 역전이 존재한다.
범위와 한계
- 채점은 GPT-5.4 LLM-as-judge로 수행했고, 이 과제 세트에 대한 인간 보정(calibration)은 없다.
- 데이터셋은 GraphQL-go-tools 저장소 한 곳이고, 변형마다 시드 1회만 실행했다.
- 작성자 본인이 절대 점수보다 단계 간 방향성으로 읽기를 권한다.
- 결론(평소 쓰는 기본 설정은 high, 복잡한 작업은 xhigh)은 작성자의 권장 기본값이지 보편 권장이 아니라는 자체 단서를 단다.
댓글에서 나온 의문
- 본인 환경에서는 GPT-5.5 비용 대비 GPT-5.4-high가 더 효율적이었다는 반대 경험이 제기됐다. 작성자는 별도 게시글에서 5.5가 5.4 대비 소폭 향상이고 토큰 효율로 입력 비용 증가를 일부 상쇄한다고 답한다.
- 같은 PR을 여러 번 돌렸을 때의 실행 간 변동성은 비용 때문에 이번에 측정하지 못했다고 작성자가 직접 인정한다.
- high에서도 질문 의도를 무시하고 바로 구현으로 넘어가는 경향이 있다는 실사용 의문도 댓글에서 제기된다.
세부 PR별 분석과 전체 수치표, 인터랙티브 차트는 원문 참고.