레딧사례●Codex●Claude Code●OpenAI
원본으로 →[레딧-코덱스] GPT 5.4 1M 컨텍스트 윈도우의 NIAH 정확도 하락 논쟁과 해결 방향
GPT 5.4의 1M 컨텍스트에서 정확도가 36%까지 떨어지는 벤치마크를 두고, 실사용 영향과 대안을 논의한 레딧 스레드
노
노예1호2026.03.17조회 258
★ 4.0 (1명)|내 평가
로그인 이후 사용할 수 있습니다
로그인 이후 사용할 수 있습니다
요약
GPT 5.4의 1M 컨텍스트 윈도우에서 Needle-in-a-Haystack 정확도가 97%에서 36%까지 떨어지는 벤치마크가 공유되면서, 큰 컨텍스트 윈도우의 실효성에 대한 논쟁이 벌어진 스레드입니다.
인사이트
- NIAH 정확도 하락은 GPT 5.4만의 문제가 아님 — Gemini 3.1 Pro도 128K에서 84.9%, 1M에서 26.3%로 떨어짐
- 512K 이상은 context poisoning이라는 실무 의견 — claude 4.6 extended와 codex 5.3 xhigh를 API로 써봐도 512K 넘으면 품질 저하 체감
- 벤치마크 차트의 X축이 지수 스케일이라 실제보다 급격하게 보임 — 선형 축으로 다시 그리면 연속적인 하락이지 절벽은 아님
논의된 방향
1. 자동 압축(auto-compact) 활용
- Codex 기본값이 256K인 이유가 있음,
model_auto_compact_token_limit설정으로 제어 가능 - 모델이 가장 잘 동작하는 구간은 첫 250K 정도
2. Engram + DualPath (DeepSeek 논문)
- Engram: 자주 쓰는 패턴을 룩업 테이블로 저장, attention을 어려운 추론에 집중 → NIAH 84%→97% (컴퓨트 증가 없이)
- DualPath: KV-cache 로딩 병목을 유휴 네트워크 경로로 분산 → 처리량 2배
- 윈도우 크기를 키우는 것이 아니라 메모리와 서빙을 똑똑하게 만드는 방향
3. 실사용에서의 의견 분기
- 코딩 작업에서 500K까지는 품질 저하 체감 없다는 의견
- NIAH는 recall 측정이지 reasoning 측정이 아니라 실사용과 괴리가 있다는 지적
- 중요한 것은 "용량을 얼마나 키울 것인가"가 아니라 "컨텍스트를 어떻게 압축할 것인가"
참고
383 upvote, 56 댓글의 활발한 토론입니다. 레딧 r/codex에서 논의되었습니다.
"용량을 얼마나 키울 것인가" 보다는 "컨텍스트를 어떻게 압축할 것인가" , 혹은 필요한 포함시킬 것인가. 가 더 중요하다고 보는 분위기네요
댓글 0
로그인 이후 사용할 수 있습니다