Vuncloud 博客
← 返回机房手记专栏

实战复盘:我是如何把 Claude Code 的月账单从 $800 砍到 $150 的

Claude Code 降本 · Opus / Sonnet 分层 · 上下文瘦身 · /compact · Max 订阅 · API Key · Prompt Caching · Cloud Mac 执行节点 ·约 12 分钟阅读

开发者工作台上笔记本显示成本分析图表与代码,象征 Claude Code 月账单优化与 token 成本控制

四月底 Anthropic 账单邮件跳出来:$812.47。我盯着数字愣了几秒——订阅明明只有 Claude Pro,多出来的全是 Claude Code 走 API Key 的按量费用。接下来四周,我没有少写一行业务代码,只是把「默认 Opus + 无限上下文 + 让 Agent 自己逛仓库」这套豪华配置拆了,月支出稳定在 $140–$165。下面是可复用的拆解与动作清单。

81%
四周内账单降幅($812 → $152 均值)
8 条
可立即落地的降本动作
70%
任务改 Sonnet 后体感无差别比例

一、$800 账单解剖:钱烧在哪

先把情绪放一边。导出 Anthropic Console 的 Usage 明细(按天、按模型、按 workspace),我把 $812 拆成四块——比例会因你的仓库大小浮动,但结构高度相似:

吞金兽 占账单(约) 典型场景
默认 Opus 长会话 38% 一个 PR 从头聊到尾不换模型,输入输出都走最贵档
上下文滚雪球 27% 20+ 轮对话后,每轮重传完整历史 + 工具输出
工具循环 / 误探索 22% Agent 反复 globgrep 全仓库,或 build 失败多轮盲试
计费模式与重跑 13% 本可用 Max 包住的量走了 API;笔记本休眠导致任务中断重开

定价锚点见 Anthropic PricingClaude Code 文档。2026 年 6 月,Opus 档 API 单价仍是 Sonnet 的数倍;Agent 场景里「输入 token」往往比「输出 token」更吓人,因为每轮都要把历史、工具结果、文件片段再喂一遍。

1.1 默认 Opus 的隐性税

Claude Code 安装后很多人(包括我)图省事,全局 opus。写单元测试、改 typo、生成 changelog——全用最贵模型。四周用量日志里,71% 的 API 调用其实不需要 Opus 推理深度,但每一轮都按旗舰价结账。

1.2 上下文滚雪球

Agent 读过的文件、命令输出、diff 都会进会话。第 5 轮可能还好,第 25 轮时单轮输入就突破 80k token,而你还只是在改同一个模块。这不是模型「变贵了」,是会话设计问题。

别和 Context Window 百分比混淆

终端里显示的上下文占用,是当前会话体积,不是月度配额。降本要看 Console 的 token 明细与模型分项,而不是只看「还剩 62%」。

1.3 工具循环与误探索

对陌生 monorepo,Agent 会先「摸底」:列目录、搜符号、读配置。若 CLAUDE.md 空白、权限过宽,摸底成本可能超过真正写 patch 的成本。我有一晚烧掉 $47,其中 $31 发生在 Agent 反复尝试错误 build 命令上。

1.4 计费模式选错

Claude Pro($20/月)适合轻量;全职 Claude Code 开发者往往该看 Max 档位($100 / $200 档,以官方当期说明为准)。我那段时间日均 6+ 小时终端 Agent,却仍用 API Key 按量——等于自费当企业客户。

二、8 条降本动作(按收益排序)

下列动作按「对我账单的边际收益」排序。你可以从 1、2、5 开始,通常一周就能看见曲线掉头。

2.1 动作 1:模型分层路由

改法:默认 sonnet;仅在任务描述含「架构 / 并发 / 安全 / 陌生仓库冷启动」时手动 /model opus。在 CLAUDE.md 里写清规则,减少误升档。

收益:单项最大,约占总降幅 35%。Sonnet 对日常 patch、测试生成、文档同步足够;Opus 留给真正会卡你半天的问题。

# 我的 CLAUDE.md 片段
默认模型:Sonnet
以下情况请求切换 Opus:
- 跨 3 个以上 package 的接口变更
- 生产级 race condition / 死锁
- 首次克隆仓库的模块地图绘制(仅第一轮)

2.2 动作 2:收窄 Agent 默认视野

改法:--add-dir 或权限配置,把 Agent 限制在子目录;禁止无目标的全局 grep。大仓库先让人类指定「改 packages/billing/」。

收益:工具调用次数降 40%,上下文膨胀速度明显放缓。

2.3 动作 3:任务粒度从「改全仓」到「改一个面」

改法:一个会话只做一个可验证目标,例如「修 flaky test #1842」而非「优化整个 CI」。完成即 /clear 或开新会话。

收益:减少无效历史携带;review 也更清晰。

2.4 动作 4:写好 CLAUDE.md,少让模型探索

改法:在仓库根维护精简的 CLAUDE.md(建议 < 200 行):构建命令、测试入口、目录地图、禁止触碰的路径。Agent 少逛迷宫,你就少付「探索税」。

  • 写清「一条命令跑通测试」——避免 Agent 猜 npm / pnpm / bun
  • 标明生成代码目录与手写代码边界
  • 列出常见陷阱(例如必须先 export FOO=bar

2.5 动作 5:/compact 与会话切分

探索阶段结束后、进入实现阶段前,执行 /compact,把已确认的结论压成摘要。我的长会话在 compact 后,单轮输入 token 平均降 52%

经验法则:对话超过 15 轮或上下文条超过 60k,就 compact 或切新会话,并把必要上下文粘贴进首条 prompt(只贴结论,不贴全文 log)。

2.6 动作 6:重算 Max 订阅 vs API

用两周真实 token 量代入单价表(可参考本站 大模型 API 价格指南)。我的交叉结论是:

  • 日均 < 2h Claude Code:Pro + 少量 API 溢出最省
  • 日均 4–8h:Max $100 档通常优于裸 API
  • 要把 Claude 嵌进自家 SaaS:继续 API,但须叠加缓存与批处理

切到 Max 后,我 API 溢出从月均 $680 降到 $40 以内(仅 CI 脚本与自动化仍走 API Key)。

2.7 动作 7:API 用户启用 Prompt Caching

若你因合规或集成必须走 API,把稳定的系统提示、CLAUDE.md 大块、接口说明设为可缓存内容。多次会话命中缓存时,重复输入块费用显著下降(见 Anthropic 文档中的 Prompt Caching 说明)。

适合:同一仓库上每天开 10+ 次新会话的团队;不适合:每次 prompt 都大幅变动的一次性脚本。

2.8 动作 8:稳定执行节点,消灭重跑税

这笔账不在 Anthropic 发票上,但会回流成 token:笔记本合盖、SSH 断线、本地休眠导致 Agent 中断,你只能把上下文简述重来一遍——重跑 ≈ 再付一轮输入

我的做法:长任务放到 Cloud Mac,tmux 会话过夜;笔记本只用来 review diff。中断次数从每周 4–5 次降到接近 0,等效省下约 $60–$90/月(按重跑规模估算)。这与「卷模型」无关,是执行节点层面的成本。

三、优化前后对照

指标 优化前(4 月) 优化后(5 月均值)
月度总支出 $812 $152
Opus 占比 78% 调用量 12% 调用量
单会话平均轮次 23 11
合并 PR 数 / 月 31 33
平均 review 轮次 2.8 2.3
任务中断重跑 18 次 / 月 2 次 / 月

产出没塌,账单先塌——说明之前大量花费买的是无效探索与错误档位,不是能力本身。

四、我刻意保留的「必要奢侈」

降本不是苦行。下面几项我仍愿意付钱:

  • 每周 2–3 次 Opus 深潜:架构债、诡异并发、安全审计
  • Max 订阅:买断高频交互的可预期成本
  • 独享 Cloud Mac 节点:比 token 便宜得多的「不中断」保险
  • 一份维护良好的 CLAUDE.md:人力时间换 Agent 探索税,ROI 极高
省下的 $650 不是让你少用 AI,是把子弹留给值得 Opus 的那 15% 问题。

五、每周 15 分钟的账单巡检

  1. Console 导出 7 天用量 → 按模型分列,看 Opus 是否异常偏高
  2. 抽查 3 个最贵会话:是任务太大、没 compact,还是探索失控?
  3. 检查默认模型与 CLAUDE.md 是否被同事改回 opus
  4. 长任务是否仍在笔记本上跑(中断 = 隐性账单)

把巡检记在日历里,比一次性「降本项目」有效得多。Agent 工作流变得太顺手之后,默认配置很容易悄悄滑回豪华模式。

FAQ

Claude Code 月花 $800 正常吗?

API 按量 + 默认 Opus + 长会话,冲到 $500–$1000 并不罕见。先拆用量结构,再判断是「真需求」还是「配置奢侈」。

Max 订阅和 API 哪个更省?

全职终端开发者多数情况下 Max 更省;集成到自己产品或用量波动大,用 API + 缓存。用两周真实数据代入单价,不要凭直觉。

Sonnet 会明显变笨吗?

对大多数 patch 与测试任务不会。硬骨头手动升 Opus,比全局 Opus 聪明。

/compact 能省多少?

本文实测单轮输入 token 降 40%–65%;省的是重复携带的历史,不是模型打折。

Prompt Caching 有用吗?

API 模式、重复系统提示与文档块时有效。Max 用户主要受益于工作流规范,而非缓存单价。

降本后产出会掉吗?

作者四周对比 PR 数略升、review 轮次下降。关键是分层与切会话,不是降级逃避。

Cloud Mac 和账单有什么关系?

减少 Agent 中断重跑,间接少烧 token。执行节点稳定是隐性降本杠杆。

结语

Claude Code 的 $800 账单,多半不是「你太依赖 AI」,而是用旗舰模型的价格买了入门模型该干的活,再叠加上下文滚雪球与探索税。模型分层、收窄视野、compact 切会话、重算 Max vs API、稳定执行节点——八条动作拆开都朴素,叠在一起就是把月账单拉回三位数。

下个月若 Anthropic 调价或 Claude Code 改配额,优先动「默认模型」和「会话粒度」两处,通常比急着换工具见效快。

Agent 要省钱,先别让它半夜断在半截

Vuncloud 独享 Mac mini M4 Cloud Mac:Claude Code 长跑、tmux 过夜、Xcode 构建不断线。美东 / 美西 / APAC 节点——限额和账单可控,任务不用从头再来。

查看 Cloud Mac 套餐 · 大模型 API 价格指南

最后更新:2026 年 6 月 23 日。定价与 Claude Code 能力以 Anthropic 官方 当期说明为准;文中金额为作者个人账单复盘,仅供参考。

机房手记 · AI

Claude Code 账单可控

模型分层 · 上下文瘦身 · Max 订阅 · Cloud Mac 执行节点

查看 Cloud Mac 套餐
限时优惠 点击查看套餐