Vuncloud 博客
← 返回机房手记专栏

从 Opus 4.8 到 Fable 5,Anthropic 这次升级到底改在了哪里?

Claude Fable 5 · Anthropic 首个公开 Mythos 级 · 长时自主 Agent 不是聊天升级 · Claude benchmark · Claude Code ·约 12 分钟阅读

开发者在多屏工作站上编写代码,象征 Claude Fable 5 长时自主 Agent 与 Claude Code 仓库级任务
TL;DR · 三句话
  • Claude Fable 5 是 Anthropic 首个向公众开放的 Mythos 级模型(2026 年 6 月 9 日 GA),与受限开放的 Mythos 5 共享同一底层架构
  • 相对 Opus 4.8,最大变化不是「聊得更聪明」,而是能持续数小时乃至数天的异步自主任务——自己规划、执行、测试、迭代
  • 对开发者:在 Claude Code 里把 Fable 5 当作「能过夜的外包高级工程师」;Opus 4.8 仍是日常结对与 Dynamic Workflows 的稳妥默认;两者都需要不掉线的 Cloud Mac 跑完验收闭环

2026 年 6 月 9 日,Anthropic 同时发布 Claude Fable 5Claude Mythos 5。前者是 Mythos Preview(4 月仅限 Glasswing 伙伴)之后,第一次对公众开放的 Mythos 级能力;后者仍是受信伙伴专用、卸除了部分安全分级器。

开发者圈子里的第一反应往往是:「又出新模型了,benchmark 涨了几分?」——这个问题问错了方向。Fable 5 与 Opus 4.8 的分水岭,在于工作形态:从「你盯着它改代码」变成「你下班它还在改」。

可用性提示(2026-06-12 更新)

Anthropic 于 6 月 12 日因美国政府出口管制指令,暂时暂停 Claude Fable 5 与 Mythos 5 的全球访问,并称正努力恢复。本文拆解的能力与集成差异在恢复后仍然适用;当前请以 官方状态页 为准,日常开发可继续使用 Opus 4.8 与其它 Claude 模型。

80.3%
SWE-Bench Pro(Fable/Mythos 5)
69.2%
SWE-Bench Pro(Opus 4.8)
1M
默认上下文窗口(Fable 5)

差异一:模型梯队——从 Opus 旗舰到 Mythos 级

在 Anthropic 的产品谱系里,Opus 长期是「最强公开发布」的标杆;Mythos 则是 2026 年推出的更高梯队,最初以 Mythos Preview 形式只服务于 Project Glasswing(网络安全等关键基础设施场景)。

Claude Fable 5 的意义在于:把 Mythos 级能力第一次放进 API、Claude Pro/Max/Team 与 Claude Code 的常规路径。它与 Claude Mythos 5 共享同一套架构与 benchmark;差别主要在安全壳——Fable 带分级器,Mythos 面向受信伙伴卸除部分限制。

对集成方而言,这不是换了个 model 字符串那么简单,而是默认任务时长、失败模式与账单结构都变了。

差异二:核心升级是长时自主执行,不是聊天

Anthropic 对 Fable 5 的官方描述反复出现三个词:thorough(彻底)proactive(主动)tests its own work(自验)。翻译成人话:

以前模型像「你问一句它答一句」的高级实习生;Fable 5 更像「你交代目标后,它会自己拆任务、写代码、跑测试、发现失败再改」的资深工程师。

公开案例里,Stripe 称 Fable 5 把数月的迁移工作压缩到数天,在单日内完成 5000 万行 Ruby 代码库的全局迁移;Anthropic 内部团队用其做长达一周以上的基因组学自主研究。这类任务在 Opus 4.8 时代往往要靠 Dynamic Workflows 手动编排子 Agent,或靠人类反复「继续」。

WWDC 2026 后 Siri 变成系统 Agent 类似,变化发生在执行层:模型不再等待下一轮人类 prompt,而是在任务预算内持续推进。

数据可视化与监控大屏,象征 Claude Fable 5 长时 Agent 任务的状态追踪与 benchmark 观测

差异三:Agentic benchmark 出现「断层」

若只看「聊天智商」,Opus 4.8 到 Fable 5 的提升是渐进的;若看Agent 能否独立完成软件工程任务,曲线是陡的。Anthropic 公布的对比(Fable 5 与 Mythos 5 在多数项上相差 1–3 个百分点;带 * 的项因 Fable 安全分级器更接近 Opus 表现):

Benchmark Fable 5 / Mythos 5 Opus 4.8 开发者读法
SWE-Bench Pro 80.3% 69.2% 真实仓库级 issue 修复,差距约 11pt
FrontierCode (Diamond) 29.3% (xhigh) 13.4% (xhigh) 可维护性 Agent 代码,差距翻倍级
Terminal-Bench 2.1 88.0%* 82.7% 终端多步操作,Claude Code 主战场
Humanity's Last Exam (tools) 64.5%* 57.9% 跨学科长链推理
OSWorld-Verified 85.0% 83.4% 计算机使用,两者接近

对日常写 iOS / Swift 的团队,SWE-Bench Pro + Terminal-Bench 比 HLE 更有参考价值:前者测「改仓库能不能合并」,后者测「在 shell 里会不会把自己绕死」——正是 claude CLI 与 xcodebuild 循环的抽象版。

Opus 4.8 在 发布时 强调的是诚实、Effort 与 Dynamic Workflows;Fable 5 则是在单次 Agent 会话内就能啃下更大块工作,减少你手写编排脚本的次数。

差异四:1M 上下文与 128k 输出

Fable 5 / Mythos 5 默认提供 100 万 token 上下文,单次最高 128k 输出 token。对长时 Agent 这意味着:

  • 可以把整仓 README、架构文档、CI 日志片段一次性塞进工作记忆
  • 配合 memory toolcompaction,中间态不必全部挤进对话窗口
  • Anthropic 称:在文件型记忆加持下,Fable 5 的长上下文任务收益是 Opus 4.8 的约三倍

Opus 4.8 已支持长上下文与 adaptive thinking,但 Fable 5 把「长」当作默认 Agent 假设而非付费加购项。迁移时需注意:thinking: {"type": "disabled"} 在 Fable 5 上不支持,adaptive thinking 始终开启,靠 effort 调深度。

差异五:安全分级器与 Opus 4.8 回退

这是 Fable 5 与 Mythos 5 同名不同命的核心:能力相同,安全壳不同。

Fable 5 对网络安全、生物、化学、蒸馏(distillation)等高风险查询部署独立安全分级器。触发时 API 返回 HTTP 200,但 stop_reason: "refusal",并标明是哪类分级器拒绝——不是传统意义上的 4xx 错误。集成方必须实现三件事(官方文档):

  1. 拒绝处理:解析 refusal,勿当作成功输出
  2. Fallback:server-side fallbacks 参数、SDK middleware 或手动重试到 claude-opus-4-8
  3. 计费:拒绝且未产生输出不计费;fallback 有 prompt-cache 抵扣,避免付双倍缓存费

因此在 ExploitBench、BioMysteryBench 等带 * 的 benchmark 上,Fable 5 分数更接近 Opus 4.8——不是模型变弱,而是公开版主动不让它答。Mythos 5 在受信场景下才展现完整能力(例如 ExploitBench Cap% 约 78% 对 Opus 4.8 的 40%)。

另有一条运营约束:Mythos 级流量保留 30 天用于信任与安全,不适用零数据保留(ZDR)协议——企业合规评审时要单独过一遍。

差异六:定价翻倍与计费新规则

Fable 5 定价为输入 $10 / 百万 token,输出 $50 / 百万 token——约为 Opus 4.8($5 / $25)的两倍,但不到 Mythos Preview($25 / $125)的一半。

价格本身是一种「任务筛选器」:适合值得跑数小时的迁移、审计、全仓测试修复;不适合高频短问答(那时用 Opus 4.8 Fast 或 Sonnet 更合理)。

订阅策略上,Anthropic 曾宣布 6 月 9–22 日 Pro/Max/Team 等套餐免费包含 Fable 5,6 月 23 日起改为消耗 credits——说明官方也把 Fable 当作溢价算力而非默认聊天模型。

集成检查清单
  • CI / Agent 脚本是否处理 stop_reason: refusal
  • 是否配置 fallback 到 claude-opus-4-8
  • 账单告警是否按任务时长而非请求次数设置
  • 敏感客户是否接受 30 天 Mythos 级数据保留政策

差异七:Claude Code 工作流范式切换

对绝大多数开发者,Fable 5 的入口不是 claude.ai 网页,而是 Claude Code——终端里的仓库级 Agent。与 Opus 4.8 时代相比,工作流应这样重排:

环节 Opus 4.8 习惯 Fable 5 习惯
任务粒度 单文件 / 单模块 / 一次 PR 跨目录迁移、多日验收、自循环测试
编排 Dynamic Workflows 手写子 Agent 模型内置长链 + task budgets(beta)
思考模式 可选 adaptive / 关闭 thinking 仅 adaptive;raw CoT 不返回
记忆 主要依赖会话上下文 memory tool + 文件型长期记忆
人类角色 逐步 review diff 定目标、定门禁、合并前验收

在 Cloud Mac 上的推荐起手式:

tmux + Claude Code · Fable 5 长跑
cd ~/work/your-ios-app
tmux new -s fable-migration

claude
# 会话内(以你安装的版本为准):
#   /model  → claude-fable-5
#   /effort → xhigh(大迁移)
# 示例任务 prompt:
# 「在 agent/fable-checkout 分支上,将 Checkout 模块同步 API 改为 async/await。
#  先出计划,确认后自主执行;每阶段跑 swift test --filter CheckoutTests;
#  全部通过后输出 git diff --stat。不要 push。」

# Ctrl+B D 分离;笔记本可关机

iOS CI 缓存优化xcodebuild 提速 同一逻辑:Fable 5 会反复打同一套构建,DerivedData / Pods 有固定「家」比裸跑 GitHub-hosted macOS 更省时间与额度。

该选 Fable 5 还是 Opus 4.8?

不必二选一,按任务时长与风险选模型:

  • 选 Fable 5:全仓迁移、跨模块一致性重构、需要模型自己跑测试并修的多日任务;预算按「工程师人天」估,不按「聊天条数」估
  • 选 Opus 4.8:日常结对、Dynamic Workflows 试点、安全/生物相关且可能被 Fable 拒绝的主题(或主动 fallback 后的稳定路径)、成本敏感的高频调用
  • 选 Cursor 本地 + 远端组合:IDE 内小改仍用 Cursor;Fable 5 在 Cloud Mac 上啃大活——与 Opus 4.8 时代分工相同,只是「大活」的定义变大了

为什么必须落在 Cloud Mac 上跑?

Fable 5 的「长时自主」对运行环境的要求,和 Opus 4.8 跑 Dynamic Workflows 一样硬,甚至更高:

  • 会话不能断:小时级、天级任务经不起笔记本睡眠;tmux + 7×24 Cloud Mac 是基线
  • 真 macOS 工具链xcodebuild、Simulator、SPM / CocoaPods 只能在 Mac 上验收 Agent 的 Swift 改动
  • 磁盘与内存:1M 上下文 + 并行测试会吃内存;M4 24GB 与大盘在 monorepo 上不是奢侈
  • 与 CI 同机:Agent 改完 → 同机 warm build → 失败日志回灌 Agent,缩短反馈环

模型 ID 将来可能从 claude-fable-5 换成下一代 Mythos,但主机与工作流不用推倒重来——这正是 Cloud Mac 作为「Agent 物理层」的价值。

常见问题(FAQ)

和 Opus 4.8 最大的区别?

长时自主 Agent 能力。聊天差距有限;仓库级、多日、自验任务差距巨大。

Fable 5 和 Mythos 5 一样强吗?

底层一样。Fable 多一层安全分级器,部分场景回退 Opus 4.8;Mythos 5 仅 Glasswing 等受信路径可用。

API 模型 ID?

claude-fable-5(公开)、claude-mythos-5(受限)。

现在能用吗?

2026 年 6 月 12 日起曾全球暂停,恢复时间以 Anthropic 公告为准。写作本文时(6 月 15 日)请查官方状态;Opus 4.8 与其它模型不受影响。

和 Cursor 冲突吗?

不冲突。本地 IDE + 远端 Claude Code 是常见组合;Fable 5 负责「过夜的大活」。

结语

这次升级到底改在了哪里?一句话:Anthropic 把 Mythos 级长时 Agent 第一次交给了普通开发者。上面 7 个关键差异——梯队、自主执行、benchmark 断层、上下文规格、安全回退、定价与 Claude Code 范式——都指向同一件事:

AI 编码的竞争,从「谁单次回答更聪明」转向「谁能在无人值守下把任务做完」。

benchmark 上的 80.3% vs 69.2% 是信号;你仓库里那次「交给它一整夜、早上看 diff 能合并」才是验收。在那之前,先备好一块不掉线的 Cloud Mac——Fable 5 和 Opus 4.8 都需要,只是前者更离不开。

Fable 5 过夜跑迁移,得有一块不掉线的 Mac

Vuncloud Cloud Mac M4:tmux 长跑 Claude Code、同机 xcodebuild 验收、DerivedData 持久缓存——长时 Agent 的物理执行层。

查看 Cloud Mac 套餐 · Opus 4.8 深度拆解

机房手记 · Claude

Mythos 级 Agent,需要 Mythos 级运行环境

Fable 5 · Claude Code · Cloud Mac · 长时任务

读 Opus 4.8 拆解
限时优惠 点击查看套餐