Vuncloud 블로그
← 클라우드 랩으로 돌아가기

실전 회고: Claude Code 월 청구서를 $800에서 $150로 줄인 방법

Claude Code 비용 절감 · Opus / Sonnet 계층 · 컨텍스트 슬림화 · /compact · Max 구독 · API Key · Prompt Caching · Cloud Mac 실행 노드 ·약 12분 읽기

개발자 작업대 노트북의 비용 분석 차트와 코드—Claude Code 월 청구서 최적화와 token 비용 통제를 상징

4월 말 Anthropic 청구 이메일: $812.47. 구독은 Claude Pro뿐인데, 나머지는 전부 Claude Code API Key 종량 과금이었습니다. 이후 4주 동안 비즈니스 코드 한 줄도 줄이지 않고 「기본 Opus + 무제한 컨텍스트 + Agent가 저장소를 마음대로 탐색」이라는 고급 설정만 해체했더니 월 지출이 $140–$165에 안정됐습니다. 아래는 재사용 가능한 분해와 액션 체크리스트입니다.

81%
4주 내 청구서 감소 ($812 → $152 평균)
8가지
즉시 적용 가능한 비용 절감 조치
70%
Sonnet 전환 후 체감 차이 없는 작업 비율

1. $800 청구서 해부: 돈이 어디로 가나

감정은 잠시 접어두세요. Anthropic Console Usage(일별·모델별·workspace별)를보내 $812를 네 덩어리로 쪼갰습니다—비율은 저장소 크기에 따라 달라지지만 구조는 거의 같습니다:

비용 흡수체 청구서 비중(약) 전형적 시나리오
기본 Opus 장세션 38% 한 PR을 처음부터 끝까지 같은 모델로, 입·출력 모두 최고가 티어
컨텍스트 눈덩이 27% 20+ 라운드 후 매 라운드 전체 히스토리 + 도구 출력 재전송
도구 루프 / 오탐색 22% Agent가 glob·grep으로 전체 저장소 반복, 또는 build 실패 후 맹시도
과금 모드와 재실행 13% Max로 커버 가능한 양이 API로 과금; 노트북 절전으로 작업 중단 후 재시작

가격 기준은 Anthropic PricingClaude Code 문서. 2026년 6월 Opus API 단가는 여전히 Sonnet의 수 배;Agent에서는 「출력 token」보다 「입력 token」이 더 무섭습니다—매 라운드 히스토리·도구 결과·파일 조각을 다시 넣기 때문입니다.

1.1 기본 Opus의 숨은 세금

Claude Code 설치 후 편해서 전역 opus로 두는 사람이 많습니다(저도 그랬습니다). 단위 테스트, 오타 수정, changelog 생성까지 최고가 모델. 4주 로그상 API 호출 71%는 Opus 추론 깊이가 필요 없었는데 매 라운드 플래그십 요금이었습니다.

1.2 컨텍스트 눈덩이

Agent가 읽은 파일, 명령 출력, diff가 세션에 쌓입니다. 5라운드는 괜찮아도 25라운드면 단일 라운드 입력이 80k token을 넘기기도 하는데, 아직 같은 모듈만 고치는 중일 수 있습니다. 모델이 비싸진 게 아니라 세션 설계 문제입니다.

Context Window 퍼센트와 혼동하지 마세요

터미널에 보이는 컨텍스트 점유율은 현재 세션 부피이지 월간 할당량이 아닙니다. 비용 절감은 Console의 token 명세와 모델별 항목을 봐야 하며 「62% 남음」만으로는 부족합니다.

1.3 도구 루프와 오탐색

낯선 monorepo에서 Agent는 먼저 「파악」합니다: 디렉터리 나열, 심볼 검색, 설정 읽기. CLAUDE.md가 비어 있고 권한이 넓으면 파악 비용이 실제 patch보다 클 수 있습니다. 한 밤에 $47를 썼는데 그중 $31은 잘못된 build 명령 반복 시도였습니다.

1.4 잘못된 과금 모드

Claude Pro($20/월)는 가벼운 사용에 적합; 풀타임 Claude Code 개발자는 Max 티어($100 / $200, 당시 공식 안내 기준)를 봐야 합니다. 저는 하루 6시간+ 터미널 Agent인데도 API Key 종량—기업 고객 요금을 개인이 내는 셈이었습니다.

2. 8가지 비용 절감 조치 (효과 순)

아래는 「내 청구서 한계 효용」 순입니다. 1·2·5부터 시작하면 보통 일주일 안에 곡선이 꺾입니다.

2.1 조치 1: 모델 계층 라우팅

변경: 기본 sonnet; 작업 설명에 「아키텍처 / 동시성 / 보안 / 낯선 저장소 콜드 스타트」가 있을 때만 수동 /model opus. CLAUDE.md에 규칙을 적어 오승급을 줄입니다.

효과: 단일 항목 최대, 전체 감소의 약 35%. Sonnet은 일상 patch·테스트 생성·문서 동기화에 충분; Opus는 반나절 막히는 문제용.

# 내 CLAUDE.md 발췌
기본 모델: Sonnet
다음 경우 Opus 전환 요청:
- 3개 이상 package 인터페이스 변경
- 프로덕션급 race condition / 데드락
- 최초 클론 저장소 모듈 맵 작성(첫 라운드만)

2.2 조치 2: Agent 기본 시야 축소

변경: --add-dir 또는 권한 설정으로 Agent를 하위 디렉터리에 제한; 목적 없는 전역 grep 금지. 대형 저장소는 사람이 먼저 「packages/billing/ 수정」을 지정.

효과: 도구 호출 40% 감소, 컨텍스트 팽창 속도 눈에 띄게 완화.

2.3 조치 3: 작업 단위를 「전체 저장소」에서 「한 면」으로

변경: 세션당 검증 가능한 목표 하나—예: 「flaky test #1842 수정」이지 「CI 전체 최적화」가 아님. 완료 시 /clear 또는 새 세션.

효과: 무의미한 히스토리 운반 감소; review도 명확해집니다.

2.4 조치 4: CLAUDE.md 정비로 탐색 최소화

변경: 저장소 루트에 간결한 CLAUDE.md(권장 < 200행): 빌드 명령, 테스트 진입점, 디렉터리 맵, 금지 경로. Agent 미로 탐색이 줄면 「탐색세」도 줄어듭니다.

  • 「테스트 한 번에 통과하는 명령」 명시—npm / pnpm / bun 추측 방지
  • 생성 코드 디렉터리와 수기 코드 경계 표시
  • 흔한 함정 나열(예: 먼저 export FOO=bar 필요)

2.5 조치 5: /compact와 세션 분할

탐색 단계 종료 후 구현 전 /compact로 확정 결론만 요약. 긴 세션에서 compact 후 단일 라운드 입력 token 평균 52% 감소.

경험 법칙: 대화 15라운드 초과 또는 컨텍스트 60k 초과 시 compact 또는 새 세션; 필요한 맥락만 첫 prompt에 붙이기(결론만, 전체 log 아님).

2.6 조치 6: Max 구독 vs API 재계산

2주 실제 token량을 단가표에 대입(참고: LLM API 가격 가이드). 교차 결론:

  • 일평균 < 2h Claude Code: Pro + 소량 API 오버플로 최저
  • 일평균 4–8h: Max $100 티어가 순수 API보다 유리한 경우 많음
  • Claude를 자사 SaaS에 임베드: API 유지, 캐싱·배치 필수

Max 전환 후 API 오버플로는 월 $680에서 $40 이내(CI 스크립트·자동화만 API Key).

2.7 조치 7: API 사용자 Prompt Caching

컴플라이언스·통합 때문에 API를 써야 하면, 안정적인 시스템 프롬프트·CLAUDE.md 대블록·인터페이스 설명을 캐시 가능 콘텐츠로. 다회 세션 캐시 히트 시 반복 입력 블록 비용이 크게 하락(Anthropic Prompt Caching 문서 참고).

적합: 같은 저장소에서 하루 10+ 새 세션을 여는 팀. 부적합: prompt가 매번 크게 바뀌는 일회성 스크립트.

2.8 조치 8: 안정 실행 노드로 재실행 세금 제거

이 비용은 Anthropic 인보이스에 안 나오지만 token으로 환류됩니다: 노트북 덮개, SSH 끊김, 로컬 절전으로 Agent 중단 → 맥락 요약부터 다시—재실행 ≈ 입력 한 라운드 추가 과금.

제 방식: 장작업은 Cloud Mac, tmux 야간 세션; 노트북은 diff review만. 중단은 주 4–5회에서 거의 0으로, 월 $60–$90 상당 절감(재실행 규모 추정). 「모델 경쟁」이 아니라 실행 노드 층 비용입니다.

3. 최적화 전후 비교

지표 최적화 전 (4월) 최적화 후 (5월 평균)
월 총 지출 $812 $152
Opus 비중 호출량 78% 호출량 12%
세션당 평균 라운드 23 11
병합 PR 수 / 월 31 33
평균 review 라운드 2.8 2.3
작업 중단 재실행 18회 / 월 2회 / 월

산출은 유지, 청구서만 붕괴—이전 지출 상당수는 무효 탐색과 잘못된 티어에 쓴 것이지 능력 자체가 아니었습니다.

4. 의도적으로 남긴 「필요한 사치」

비용 절감이 고행은 아닙니다. 아래는 여전히 지불할 가치가 있습니다:

  • 주 2–3회 Opus 딥다이브: 기술 부채, 기괴한 동시성, 보안 감사
  • Max 구독: 고빈도 상호작용의 예측 가능한 비용
  • 전용 Cloud Mac 노드: token보다 훨씬 싼 「끊김 없음」 보험
  • 잘 관리된 CLAUDE.md: 사람 시간으로 Agent 탐색세 절감, ROI 매우 높음
절약한 $650은 AI를 덜 쓰라는 게 아니라, Opus가 값하는 상위 15% 문제에 탄환을 쓰라는 뜻입니다.

5. 주 15분 청구서 점검

  1. Console에서 7일 Usage 보내기 → 모델별로 Opus 이상 여부 확인
  2. 가장 비싼 세션 3건 샘플: 작업 과대, compact 누락, 탐색 폭주?
  3. 기본 모델·CLAUDE.md가 동료에 의해 다시 opus로 바뀌지 않았는지
  4. 장작업이 여전히 노트북에서 도는지(중단 = 숨은 청구서)

캘린더에 점검을 넣으면 일회성 「비용 절감 프로젝트」보다 효과적입니다. Agent 워크플로가 너무 매끄러워지면 기본 설정이 조용히 고급 모드로 되돌아가기 쉽습니다.

FAQ

Claude Code 월 $800 쓰는 게 정상인가요?

API 종량 + 기본 Opus + 장세션이면 $500–$1000까지 흔합니다. 먼저 사용 구조를 쪼개 「진짜 수요」인지 「설정 사치」인지 판단하세요.

Max 구독과 API 중 어느 쪽이 더 저렴한가요?

풀타임 터미널 개발자는 대체로 Max가 유리; 자사 제품 통합·사용량 변동이 크면 API + 캐싱. 2주 실데이터로 단가 대입, 직관에 맡기지 마세요.

Sonnet으로 눈에 띄게 멍청해지나요?

대부분 patch·테스트 작업에서는 아닙니다. 어려운 문제만 수동 Opus가 전역 Opus보다 똑똑합니다.

/compact로 얼마나 절약되나요?

본문 실측 단일 라운드 입력 token 40%–65% 감소; 모델 할인이 아니라 반복 히스토리 운반 절감입니다.

Prompt Caching이 유용한가요?

API 모드에서 반복 시스템 프롬프트·문서 블록에 효과적. Max 사용자는 주로 워크플로 규범의 이점.

비용 절감 후 산출이 떨어지나요?

저자 4주 비교 PR 수 소폭 증가, review 라운드 감소. 핵심은 계층화와 세션 분할, 다운그레이드 회피가 아닙니다.

Cloud Mac과 청구서의 관계는?

Agent 중단 재실행을 줄여 간접적으로 token 절약. 실행 노드 안정성은 숨은 비용 절감 레버입니다.

맺음말

Claude Code $800 청구서는 대개 「AI 과의존」이 아니라 플래그십 모델 가격으로 입문 모델이 할 일을 샀고, 컨텍스트 눈덩이와 탐색세가 겹친 결과입니다. 모델 계층, 시야 축소, compact·세션 분할, Max vs API 재계산, 안정 실행 노드—여덟 조치는 각각 단순하지만 겹치면 월 청구서를 세 자리로 되돌립니다.

다음 달 Anthropic 가격 조정이나 Claude Code 할당량 변경이 있으면 「기본 모델」과 「세션 단위」부터 손대는 편이 도구 교체보다 빠른 경우가 많습니다.

Agent 비용을 아끼려면, 밤중에 끊기지 않게

Vuncloud 전용 Mac mini M4 Cloud Mac: Claude Code 장시간 실행, tmux 야간, Xcode 빌드 끊김 없음. US East / West / APAC——한도와 청구서는 통제, 작업은 처음부터 다시 하지 않아도 됩니다.

Cloud Mac 요금 보기 · LLM API 가격 가이드

최종 업데이트: 2026년 6월 23일. 가격·Claude Code 기능은 Anthropic 공식 당시 안내 기준; 금액은 저자 개인 청구 회고이며 참고용입니다.

클라우드 랩 · AI

Claude Code 청구서 통제

모델 계층 · 컨텍스트 슬림화 · Max 구독 · Cloud Mac 실행 노드

Cloud Mac 플랜 보기
한정 혜택 플랜 보기