클로드 코드 절약 사례 , 용도 별 모델 라우팅으로 월 $30

요약

Claude Code Max $200/월을 2개월 쓰던 글쓴이가 직접 만든 로깅 도구로 하루 토큰 사용처를 4갈래로 나눴고, Opus가 실제로 필요한 구간은 다중 파일을 가로지르는 추론 약 15%뿐이라고 판단했습니다.

Anthropic API + 라우팅 규칙으로 옮겨 일상적인 작업은 Sonnet, 어려운 추론만 Opus로 보내자 월 $200이 약 $30으로 줄었고 출력 품질은 같다고 보고했습니다.

예를 들어서, 코딩 작업에 파일을 대략으로 읽거나 새로 쓰는 작업에 opus 모델을 쓸 필요가 없다는 의견. 용도별로 사용 모델을 선택하게 하는 패턴이다.

내용

측정 — 하루 토큰 사용처 분류

글쓴이는 Claude Code의 동작과 API 호출별 토큰을 직접 로깅하는 관측 도구를 붙여 며칠치 데이터를 모았습니다.
Anthropic이 토큰 분해·작업별 비용 가시성을 표준 제공하지 않아 외부 모니터링이 필요했다고 적었습니다.

사용처	비율	글쓴이 판단
file read · git status · 코드베이스 스캔	약 40%	Opus 불필요
테스트 생성 · 기본 골격 작성 · 반복 코드	약 25%	Sonnet 동등
포매팅 · 이름 변경 · 단순 리팩터링	약 20%	어떤 모델이든 무관
다중 파일 아키텍처 추론	약 15%	Opus 필요

접근 — API + 라우터로 모델 자동 분배

앞 3분류를 합한 약 85%는 Sonnet이 Opus와 같게 풀고 단순 변환은 모델 차이가 없다고 판단해, Anthropic API로 옮긴 뒤 외부 라우터를 Claude Code에 붙였습니다. 처음에는 케이스마다 수동으로 모델을 골랐고 이후 herma AI 라우터로 바꿔 API 호출마다 모델을 자동 선택하게 했습니다. Opus는 다중 파일을 가로지르는 추론이 필요한 약 15% 구간에만 라우팅됩니다.

결과 — 월 $200 → 약 $30, 품질은 같음

월 비용은 Max $200/월에서 약 $30/월로 줄었고 어려운 작업이 그대로 Opus로 가기 때문에 출력 품질은 같다고 보고했습니다. 글쓴이는 구독 모델이 토큰 분해와 작업별 비용을 사용자에게 숨긴다고 적고, Claude Code의 직접 API 호출 대비 약 8배 보조금이 매주 줄고 있어 곧 직접 API 비용과 같은 수준이 될 것으로 본다고 덧붙였습니다.

같은 비용이면 Pro $20 + 가끔 $10 초과 사용료가 더 낫지 않냐는 질문이 붙었습니다. 글쓴이는 생태계 종속 회피와 가격 변동 위험까지 고려해 직접 API 전환을 택했고, 구독 성능이 직접 API와 곧 같아질 것으로 본다고 답했습니다.
라우팅 규칙 작동 방식을 묻자 글쓴이는 Anthropic API를 외부 API로 교체한 뒤 herma AI 라우터를 Claude Code에 붙여 API 호출마다 모델을 자동 선택한다고 설명했습니다. 처음엔 수동으로 고르다 라우터로 자동화했다고 덧붙였습니다.
모델을 전환하면 Anthropic이 전체 대화를 다시 보내 비용 절감이 무너지지 않느냐는 우려가 나왔습니다. 글쓴이는 캐시 재사용 비용이 입력 토큰의 약 10%이고, herma가 긴 컨텍스트 끝부분을 같은 제공자로 유지해 캐시 재사용을 살리는 식으로 관측된다고 답했습니다.
다수 동의 — Opus는 계획, Sonnet은 실행, Haiku는 반복 코드로 나누고 컨텍스트·스킬·MCP 수를 줄이라는 운영 권고가 있었고, 별도 사용자는 Claude Code가 플러그인 안에서 이미 Sonnet·Haiku로 작업을 넘기고 있지 않냐는 의문을 덧붙였습니다.
DeepSeek V4 Pro·V4 Flash 같은 더 싼 모델로 옮기면 월 $7·$3 수준까지 떨어진다는 추가 보고가 붙었습니다.
토큰 분석을 어떻게 했느냐는 질문 — 글쓴이는 Claude Code 동작과 호출별 토큰을 로깅하는 관측 시스템을 직접 만들어 며칠치를 분석했다고 답했습니다.
글에 영향을 받아 Opus 4.6 high를 쓰던 52개 스킬을 손보면 토큰 사용이 약 60% 줄어들 것으로 추정한다는 적용 시도가 있었습니다.
Anthropic이 손실 + 펀딩으로 운영 중이라 현재 가격·한도가 유지되기 어렵다는 회의적 의견도 따로 나왔습니다.

요약

Anthropic API + 라우팅 규칙으로 옮겨 일상적인 작업은 Sonnet, 어려운 추론만 Opus로 보내자 월 $200이 약 $30으로 줄었고 출력 품질은 같다고 보고했습니다.

내용

측정 — 하루 토큰 사용처 분류

사용처	비율	글쓴이 판단
file read · git status · 코드베이스 스캔	약 40%	Opus 불필요
테스트 생성 · 기본 골격 작성 · 반복 코드	약 25%	Sonnet 동등
포매팅 · 이름 변경 · 단순 리팩터링	약 20%	어떤 모델이든 무관
다중 파일 아키텍처 추론	약 15%	Opus 필요

접근 — API + 라우터로 모델 자동 분배

결과 — 월 $200 → 약 $30, 품질은 같음

같은 비용이면 Pro $20 + 가끔 $10 초과 사용료가 더 낫지 않냐는 질문이 붙었습니다. 글쓴이는 생태계 종속 회피와 가격 변동 위험까지 고려해 직접 API 전환을 택했고, 구독 성능이 직접 API와 곧 같아질 것으로 본다고 답했습니다.
라우팅 규칙 작동 방식을 묻자 글쓴이는 Anthropic API를 외부 API로 교체한 뒤 herma AI 라우터를 Claude Code에 붙여 API 호출마다 모델을 자동 선택한다고 설명했습니다. 처음엔 수동으로 고르다 라우터로 자동화했다고 덧붙였습니다.
모델을 전환하면 Anthropic이 전체 대화를 다시 보내 비용 절감이 무너지지 않느냐는 우려가 나왔습니다. 글쓴이는 캐시 재사용 비용이 입력 토큰의 약 10%이고, herma가 긴 컨텍스트 끝부분을 같은 제공자로 유지해 캐시 재사용을 살리는 식으로 관측된다고 답했습니다.
다수 동의 — Opus는 계획, Sonnet은 실행, Haiku는 반복 코드로 나누고 컨텍스트·스킬·MCP 수를 줄이라는 운영 권고가 있었고, 별도 사용자는 Claude Code가 플러그인 안에서 이미 Sonnet·Haiku로 작업을 넘기고 있지 않냐는 의문을 덧붙였습니다.
DeepSeek V4 Pro·V4 Flash 같은 더 싼 모델로 옮기면 월 $7·$3 수준까지 떨어진다는 추가 보고가 붙었습니다.
토큰 분석을 어떻게 했느냐는 질문 — 글쓴이는 Claude Code 동작과 호출별 토큰을 로깅하는 관측 시스템을 직접 만들어 며칠치를 분석했다고 답했습니다.
글에 영향을 받아 Opus 4.6 high를 쓰던 52개 스킬을 손보면 토큰 사용이 약 60% 줄어들 것으로 추정한다는 적용 시도가 있었습니다.
Anthropic이 손실 + 펀딩으로 운영 중이라 현재 가격·한도가 유지되기 어렵다는 회의적 의견도 따로 나왔습니다.

클로드 코드 절약 사례 , 용도 별 모델 라우팅으로 월 $30

요약

내용

측정 — 하루 토큰 사용처 분류

접근 — API + 라우터로 모델 자동 분배

결과 — 월 $200 → 약 $30, 품질은 같음

댓글

댓글 0

클로드 코드 절약 사례 , 용도 별 모델 라우팅으로 월 $30

요약

내용

측정 — 하루 토큰 사용처 분류

접근 — API + 라우터로 모델 자동 분배

결과 — 월 $200 → 약 $30, 품질은 같음

댓글

댓글 0