[레딧-코덱스] GPT 5.4 1M 컨텍스트 윈도우의 NIAH 정확도 하락 논쟁과 해결 방향

GPT 5.4의 1M 컨텍스트에서 정확도가 36%까지 떨어지는 벤치마크를 두고, 실사용 영향과 대안을 논의한 레딧 스레드

노

노예1호

2026.03.17조회 258

★ 4.0 (1명)|내 평가

로그인 이후 사용할 수 있습니다

노

노예1호2026.03.17 · 조회 258

★ 4.0 (1명)|내 평가

로그인 이후 사용할 수 있습니다

원본으로 →

요약

GPT 5.4의 1M 컨텍스트 윈도우에서 Needle-in-a-Haystack 정확도가 97%에서 36%까지 떨어지는 벤치마크가 공유되면서, 큰 컨텍스트 윈도우의 실효성에 대한 논쟁이 벌어진 스레드입니다.

인사이트

NIAH 정확도 하락은 GPT 5.4만의 문제가 아님 — Gemini 3.1 Pro도 128K에서 84.9%, 1M에서 26.3%로 떨어짐
512K 이상은 context poisoning이라는 실무 의견 — claude 4.6 extended와 codex 5.3 xhigh를 API로 써봐도 512K 넘으면 품질 저하 체감
벤치마크 차트의 X축이 지수 스케일이라 실제보다 급격하게 보임 — 선형 축으로 다시 그리면 연속적인 하락이지 절벽은 아님

논의된 방향

1. 자동 압축(auto-compact) 활용

Codex 기본값이 256K인 이유가 있음, model_auto_compact_token_limit 설정으로 제어 가능
모델이 가장 잘 동작하는 구간은 첫 250K 정도

2. Engram + DualPath (DeepSeek 논문)

Engram: 자주 쓰는 패턴을 룩업 테이블로 저장, attention을 어려운 추론에 집중 → NIAH 84%→97% (컴퓨트 증가 없이)
DualPath: KV-cache 로딩 병목을 유휴 네트워크 경로로 분산 → 처리량 2배
윈도우 크기를 키우는 것이 아니라 메모리와 서빙을 똑똑하게 만드는 방향

3. 실사용에서의 의견 분기

코딩 작업에서 500K까지는 품질 저하 체감 없다는 의견
NIAH는 recall 측정이지 reasoning 측정이 아니라 실사용과 괴리가 있다는 지적
중요한 것은 "용량을 얼마나 키울 것인가"가 아니라 "컨텍스트를 어떻게 압축할 것인가"

참고

383 upvote, 56 댓글의 활발한 토론입니다. 레딧 r/codex에서 논의되었습니다.

"용량을 얼마나 키울 것인가" 보다는 "컨텍스트를 어떻게 압축할 것인가" , 혹은 필요한 포함시킬 것인가. 가 더 중요하다고 보는 분위기네요

[레딧-코덱스] GPT 5.4 1M 컨텍스트 윈도우의 NIAH 정확도 하락 논쟁과 해결 방향

GPT 5.4의 1M 컨텍스트에서 정확도가 36%까지 떨어지는 벤치마크를 두고, 실사용 영향과 대안을 논의한 레딧 스레드

노

노예1호

2026.03.17조회 258

★ 4.0 (1명)|내 평가

로그인 이후 사용할 수 있습니다

노

노예1호2026.03.17 · 조회 258

★ 4.0 (1명)|내 평가

로그인 이후 사용할 수 있습니다

원본으로 →

인사이트

NIAH 정확도 하락은 GPT 5.4만의 문제가 아님 — Gemini 3.1 Pro도 128K에서 84.9%, 1M에서 26.3%로 떨어짐

512K 이상은 context poisoning이라는 실무 의견 — claude 4.6 extended와 codex 5.3 xhigh를 API로 써봐도 512K 넘으면 품질 저하 체감

벤치마크 차트의 X축이 지수 스케일이라 실제보다 급격하게 보임 — 선형 축으로 다시 그리면 연속적인 하락이지 절벽은 아님

논의된 방향

1. 자동 압축(auto-compact) 활용

Codex 기본값이 256K인 이유가 있음, model_auto_compact_token_limit 설정으로 제어 가능

모델이 가장 잘 동작하는 구간은 첫 250K 정도

2. Engram + DualPath (DeepSeek 논문)

Engram: 자주 쓰는 패턴을 룩업 테이블로 저장, attention을 어려운 추론에 집중 → NIAH 84%→97% (컴퓨트 증가 없이)

DualPath: KV-cache 로딩 병목을 유휴 네트워크 경로로 분산 → 처리량 2배

윈도우 크기를 키우는 것이 아니라 메모리와 서빙을 똑똑하게 만드는 방향

3. 실사용에서의 의견 분기

코딩 작업에서 500K까지는 품질 저하 체감 없다는 의견

NIAH는 recall 측정이지 reasoning 측정이 아니라 실사용과 괴리가 있다는 지적

중요한 것은 "용량을 얼마나 키울 것인가"가 아니라 "컨텍스트를 어떻게 압축할 것인가"

[레딧-코덱스] GPT 5.4 1M 컨텍스트 윈도우의 NIAH 정확도 하락 논쟁과 해결 방향

요약

인사이트

논의된 방향

1. 자동 압축(auto-compact) 활용

2. Engram + DualPath (DeepSeek 논문)

3. 실사용에서의 의견 분기

참고

댓글 0

[레딧-코덱스] GPT 5.4 1M 컨텍스트 윈도우의 NIAH 정확도 하락 논쟁과 해결 방향

요약

인사이트

논의된 방향

1. 자동 압축(auto-compact) 활용

2. Engram + DualPath (DeepSeek 논문)

3. 실사용에서의 의견 분기

참고

댓글 0