GPT-5.5 추론 강도 4단을 26개 PR 과제로 비교한 결과

GPT-5.5 추론 강도 4단계를 GraphQL-go-tools 26개 PR에 돌려 테스트 통과 외에 의미 일치·리뷰 통과·비용까지 잰 비교 결과.

요약

GPT-5.5(Codex 0.128.0)를 추론 레벨 4단계(low / medium / high / xhigh)로 나눠 GraphQL-go-tools 저장소의 매칭된 PR 26개에 시드 1회씩 돌린다.

테스트 통과 외에 인간 PR과 의미가 같은지(equivalence)·
리뷰어가 받아들일 만한지(code-review pass)·
인간보다 더 많은 코드를 건드렸는지(footprint risk)
비용까지

함께 잰 비교 글이다.

작성자는 본인 환경에서의 1회 실행 기준임을 명시하고, 결과를 다른 저장소로 일반화하지 말라고 미리 적어 둔다.

단계별 결과

테스트 통과만 보면 low와 medium이 21/26으로 같다. 같은 21/26 안에서 medium이 인간 PR과 의미가 더 맞고 리뷰 평가도 더 좋다.

지표	low	medium
테스트 통과	21/26	21/26
의미 일치	4/26	11/26
리뷰 통과	3/26	5/26
유지보수·스타일 채점 합계	2.311	2.604

작성자는 추론 레벨이 정답률보다 패치의 성격(어림짐작 패치냐, 저장소 도메인을 모델링한 패치냐)을 바꾼다고 본다.

medium → high 구간은 실용적인 도약 구간이다. 더 많은 과제가 통합과 리뷰까지 통과하고, 비용도 늘지만 절대적이지는 않다. 작성자는 이 지점을 일상용 기본값으로 권장한다.

high → xhigh는 품질 모드 성격이다. xhigh는 의미 일치·리뷰 통과의 평균과 중앙값이 모두 high보다 높아서 한두 개가 평균을 끌어올린 게 아니다.

동시에 xhigh는 인간 패치보다 더 많은 줄을 건드리는 경향이 있고, 추가된 줄의 상당 부분은 테스트·픽스처·기대 출력이라 검토·유지보수해야 할 코드 양이 함께 늘어난다.

비용

high가 medium의 약 1.43배.
xhigh가 high의 약 2.18배.
xhigh의 중앙값 비용도 high보다 여전히 높다.
이번 실행만으로 작성자 주간 20x 쿼터의 50% 이상이 소진됐다.

단조 개선이 아니다

PR #1240(정리·통합 작업): low와 high가 통과했고, xhigh는 의미는 맞지만 리뷰에서 떨어진 사례.
PR #1155(gRPC 데이터소스 견고화): high가 통과한 반면 xhigh는 비활성화 동작과 잘못된 리스트 처리로 떨어진 사례.

평균적으로는 단계가 올라갈수록 좋지만 개별 과제 단위 역전이 존재한다.

범위와 한계

채점은 GPT-5.4 LLM-as-judge로 수행했고, 이 과제 세트에 대한 인간 보정(calibration)은 없다.
데이터셋은 GraphQL-go-tools 저장소 한 곳이고, 변형마다 시드 1회만 실행했다.
작성자 본인이 절대 점수보다 단계 간 방향성으로 읽기를 권한다.
결론(평소 쓰는 기본 설정은 high, 복잡한 작업은 xhigh)은 작성자의 권장 기본값이지 보편 권장이 아니라는 자체 단서를 단다.

댓글에서 나온 의문

본인 환경에서는 GPT-5.5 비용 대비 GPT-5.4-high가 더 효율적이었다는 반대 경험이 제기됐다. 작성자는 별도 게시글에서 5.5가 5.4 대비 소폭 향상이고 토큰 효율로 입력 비용 증가를 일부 상쇄한다고 답한다.
같은 PR을 여러 번 돌렸을 때의 실행 간 변동성은 비용 때문에 이번에 측정하지 못했다고 작성자가 직접 인정한다.
high에서도 질문 의도를 무시하고 바로 구현으로 넘어가는 경향이 있다는 실사용 의문도 댓글에서 제기된다.

세부 PR별 분석과 전체 수치표, 인터랙티브 차트는 원문 참고.

GPT-5.5 추론 강도 4단을 26개 PR 과제로 비교한 결과

GPT-5.5 추론 강도 4단계를 GraphQL-go-tools 26개 PR에 돌려 테스트 통과 외에 의미 일치·리뷰 통과·비용까지 잰 비교 결과.

요약

GPT-5.5(Codex 0.128.0)를 추론 레벨 4단계(low / medium / high / xhigh)로 나눠 GraphQL-go-tools 저장소의 매칭된 PR 26개에 시드 1회씩 돌린다.

테스트 통과 외에 인간 PR과 의미가 같은지(equivalence)·
리뷰어가 받아들일 만한지(code-review pass)·
인간보다 더 많은 코드를 건드렸는지(footprint risk)
비용까지

함께 잰 비교 글이다.

작성자는 본인 환경에서의 1회 실행 기준임을 명시하고, 결과를 다른 저장소로 일반화하지 말라고 미리 적어 둔다.

단계별 결과

테스트 통과만 보면 low와 medium이 21/26으로 같다. 같은 21/26 안에서 medium이 인간 PR과 의미가 더 맞고 리뷰 평가도 더 좋다.

지표	low	medium
테스트 통과	21/26	21/26
의미 일치	4/26	11/26
리뷰 통과	3/26	5/26
유지보수·스타일 채점 합계	2.311	2.604

작성자는 추론 레벨이 정답률보다 패치의 성격(어림짐작 패치냐, 저장소 도메인을 모델링한 패치냐)을 바꾼다고 본다.

high → xhigh는 품질 모드 성격이다. xhigh는 의미 일치·리뷰 통과의 평균과 중앙값이 모두 high보다 높아서 한두 개가 평균을 끌어올린 게 아니다.

비용

high가 medium의 약 1.43배.
xhigh가 high의 약 2.18배.
xhigh의 중앙값 비용도 high보다 여전히 높다.
이번 실행만으로 작성자 주간 20x 쿼터의 50% 이상이 소진됐다.

단조 개선이 아니다

PR #1240(정리·통합 작업): low와 high가 통과했고, xhigh는 의미는 맞지만 리뷰에서 떨어진 사례.
PR #1155(gRPC 데이터소스 견고화): high가 통과한 반면 xhigh는 비활성화 동작과 잘못된 리스트 처리로 떨어진 사례.

평균적으로는 단계가 올라갈수록 좋지만 개별 과제 단위 역전이 존재한다.

범위와 한계

채점은 GPT-5.4 LLM-as-judge로 수행했고, 이 과제 세트에 대한 인간 보정(calibration)은 없다.
데이터셋은 GraphQL-go-tools 저장소 한 곳이고, 변형마다 시드 1회만 실행했다.
작성자 본인이 절대 점수보다 단계 간 방향성으로 읽기를 권한다.
결론(평소 쓰는 기본 설정은 high, 복잡한 작업은 xhigh)은 작성자의 권장 기본값이지 보편 권장이 아니라는 자체 단서를 단다.

댓글에서 나온 의문

본인 환경에서는 GPT-5.5 비용 대비 GPT-5.4-high가 더 효율적이었다는 반대 경험이 제기됐다. 작성자는 별도 게시글에서 5.5가 5.4 대비 소폭 향상이고 토큰 효율로 입력 비용 증가를 일부 상쇄한다고 답한다.
같은 PR을 여러 번 돌렸을 때의 실행 간 변동성은 비용 때문에 이번에 측정하지 못했다고 작성자가 직접 인정한다.
high에서도 질문 의도를 무시하고 바로 구현으로 넘어가는 경향이 있다는 실사용 의문도 댓글에서 제기된다.

세부 PR별 분석과 전체 수치표, 인터랙티브 차트는 원문 참고.

GPT-5.5 추론 강도 4단계를 26개 PR 과제로 비교한 결과

GPT-5.5 추론 강도 4단을 26개 PR 과제로 비교한 결과

요약

단계별 결과

비용

단조 개선이 아니다

범위와 한계

댓글에서 나온 의문

댓글 0

GPT-5.5 추론 강도 4단계를 26개 PR 과제로 비교한 결과

GPT-5.5 추론 강도 4단을 26개 PR 과제로 비교한 결과

요약

단계별 결과

비용

단조 개선이 아니다

범위와 한계

댓글에서 나온 의문

댓글 0