Claude Fable 5 对比 Sonnet 5(2026):贵 5 倍,什么时候值
Fable 5 标价 $10/$50,是 Sonnet 5 $2/$10 的 5 倍,但 SWE-bench Pro 拿到 80.3% 对 63.2%。天花板模型什么时候回本,以及怎么在 ofox 上同时路由两者。
一句话总结 Fable 5 是 Anthropic 的能力天花板,Sonnet 5 是它的价值地板,而这是头一回两者能挂在同一个 endpoint 后面。Fable 5 标价 每百万 token $10/$50,正好是 Sonnet 5 引入期 $2/$10 的 5 倍(8 月 31 日后是 3.3 倍)。它靠数字撑起这个溢价:SWE-bench Pro 80.3% 对 Sonnet 5 的 63.2%,Every 的 Senior Engineer 测试 91/100,而 Opus 4.8 只有 63。坑在于价格差是地板不是天花板,因为 Fable 5 思考始终开启,每个任务吐出更多输出 token;还有一个可用性坑:Sonnet 5 常驻挂牌,Fable 5 在访问窗口里时有时无。下面是规格、benchmark 对照表、每解决一个 issue 的成本算账,以及一段 10 行代码,让你在自己的流量上 A/B 两个模型。
5 倍这个标价差,是两者差距最小的时候。Fable 5 思考始终开启,同一任务它吐出的输出 token 比 Sonnet 5 多,而输出正是按 $50 计费的那一行。
一句话结论:你到底该选哪个
对大多数团队来说答案是”Sonnet 5 当默认,Fable 5 留给你输不起的困难长尾”。按场景给出一行判断。
| 场景 | 选择 | 理由 |
|---|---|---|
| 分类、抽取、聊天、RAG 问答 | Sonnet 5 | 输出有界,能力绰绰有余,价格只有五分之一 |
| 日常编码:修改、重构、测试脚手架 | Sonnet 5 | 63.2% SWE-bench Pro 足以应付日常 |
| 失败一个补丁就代价高昂的前沿 Agent 编码 | Fable 5 | 80.3% SWE-bench Pro,91/100 高级工程师测试 |
| 必须一次跑通的长程自主运行 | Fable 5 | 正确性是瓶颈时,重试更少 |
| 混合负载下对成本敏感的默认选型 | 两个都路由 | 便宜活给 Sonnet 5,困难长尾给 Fable 5 |
| 网络安全、生物、蒸馏相关工作 | 都别选,用 Opus 4.8 | Fable 5 反正会把这些自动路由到 Opus 4.8 |
本文余下部分就是这张表背后的证据,外加一份老实版的”$50 档到底什么时候回本”。
发生了什么:Fable 5 回来了,Sonnet 5 到了
相隔三周的两次发布,重置了 Claude 线的顶端和中段。
Claude Fable 5 于 2026 年 6 月 9 日发布,是 Anthropic 首个正式可用的 Mythos 级模型,此前 Anthropic 一直因网络安全能力顾虑而按住这个家族没放。它就是加了三个安全分类器的 Mythos 模型。Anthropic 把它放进 Pro、Max、Team 订阅套餐两周,然后在 6 月 23 日从这些套餐里撤掉,只留下 API 单价 $10/$50 作为入口。此后它一直在访问窗口里轮进轮出,这对你怎么围绕它做架构很关键。
Claude Sonnet 5 于 2026 年 6 月 30 日发布,引入期定价 $2/$10(8 月 31 日后标准价 $3/$15)。它是 Anthropic Agent 能力最强的 Sonnet 层模型,也是非前沿专业工作的新默认。我们在 Sonnet 5 对比 Opus 4.8 里讲了它和中段模型的正面对决。
之所以直接拿这两端对比、而不是各自对 Opus 4.8,是因为它们回答不同的问题。Sonnet 5 回答”能过我日常门槛的最便宜模型是哪个”。Fable 5 回答”当任务难到答错才是昂贵结果时,钱能买到的最好模型是哪个”。大多数团队两个答案都需要,有意思的决策是你把界线画在哪。如果你想看把 GPT-5.5 也拉进来的完整三方编码对决,在 Fable 5 对比 Opus 4.8 对比 GPT-5.5 里;这篇更窄也更实用:两档模型,一个路由决策。
规格速览对比
两个模型标称上下文窗口都是 1M,最大输出都是 128K。真正的差异在价格、可用性,以及 Fable 5 关不掉思考这件事。
| 规格 | Claude Fable 5 | Claude Sonnet 5 |
|---|---|---|
| ofox 模型 ID | anthropic/claude-fable-5 | anthropic/claude-sonnet-5 |
| 输入 | $10/M | $2/M(引入期),$3/M(标准价) |
| 输出 | $50/M | $10/M(引入期),$15/M(标准价) |
| 缓存输入读取 | $1/M(0.1 倍比例) | $0.2/M |
| 上下文窗口 | 1M | 1M |
| 最大输出 | 128K | 128K |
| 思考 | 始终开启,无法关闭 | 自适应,默认开启,可关闭 |
| 采样参数 | 400 错误 | 400 错误 |
| 安全路由 | 网络安全 / 生物 / 蒸馏转 Opus 4.8 | 实时网络安全拒答 |
| ofox 可用性 | 窗口式,非常驻挂牌 | 常驻挂牌 |
引入期 Sonnet 5 价格($2/$10)和缓存读取($0.2/M)与截至 2026 年 7 月 2 日 ofox 模型页 anthropic/claude-sonnet-5 一致。Fable 5 的 $10/$50 是 Anthropic Fable 5 发布公告 里的 API 单价;缓存读取是 Anthropic 全线通用的输入价 0.1 倍比例。写作时 Fable 5 的 ofox 挂牌未处于可用状态,所以这里的数字来自 Anthropic,不是从一个活跃的 ofox 页面读出来的。接入前先查 ofox 目录 上当前的 Fable 5 挂牌情况。
价格差是真的,而且比 5 倍更大
按单 token 单价,差距很干净:引入期内 Fable 5 是 Sonnet 5 的 5 倍,输入、输出、缓存读取都一样。8 月 31 日后 Sonnet 5 转到 $3/$15,倍数降到约 3.3 倍。无论哪种情况,Sonnet 5 每 token 都便宜得多。
标价低估了真实差距,原因是结构性的。Fable 5 思考始终开启且关不掉,所以任何非平凡任务上它都会产生一段更精简的调用不会产生的思考和输出 token。Sonnet 5 也默认开着自适应思考,但你可以用 effort 参数调低,或对有界工作直接关掉。Fable 5 上输出按 $50/M 计费、Sonnet 5 上按 $10/M,所以贵模型上多出来的输出 token 把有效差距拉到 5 倍标价之外。这和 Sonnet 对 Opus 的故事正好相反——那边是便宜模型自己的思考在缩小折扣。这里是贵模型默认想得更狠,所以差距只会变大。
缓存读取是唯一一个比例干干净净 5 倍、不带星号的地方。如果你的 prompt 带着一大段稳定前缀(system prompt、工具 schema、重复出现的文档集),缓存读取在 Sonnet 5 上是 $0.2/M,在 Fable 5 上是 $1/M。对缓存密集的生产 endpoint,光这一行就能主导整月账单,而且它从来不偏向 Fable 5。
编码 benchmark:能力差距是真的
benchmark 噪声大,但这两者之间的差距足够宽,能扛过噪声。下面是它们在映射生产编码的测试上的落点,Opus 4.8 作中段参照。
| Benchmark | Fable 5 | Sonnet 5 | Opus 4.8 |
|---|---|---|---|
| SWE-bench Verified | 95.0% | n/a | 88.6% |
| SWE-bench Pro(Agent 编码) | 80.3% | 63.2% | 69.2% |
| Every Senior Engineer(/100) | 91 | 未发布 | 63 |
| Terminal-Bench 2.1 | 80.5% | n/a | 74.6% |
两行决定了这个选择。
SWE-bench Pro 是生产读数。 它让模型端到端处理真实 GitHub issue:读仓库、写补丁,补丁要么通过隐藏测试套件,要么不通过,没有部分得分。Fable 5 的 80.3% 对 Sonnet 5 的 63.2% 是 17 分的差距,这里每一分都是”第一次跑就关掉”而非”失败”的 issue。在困难的多文件 issue 上,第一次没中意味着重试循环,或者一个人来收拾残局,这两样都比 token 贵。
Every 的 Senior Engineer benchmark 是天花板读数。 Every 用他们能写出来的最难问题跑它,是那种高级工程师要花一个工作日才解决的题。Fable 5 的 91/100 落在人类高级工程师区间。Opus 4.8 是 63。Anthropic 没发布 Sonnet 5 在这项测试上的数字,但 Sonnet 5 在 SWE-bench Pro 上已经落后 Opus 4.8(63.2% 对 69.2%),所以在一个更难的 benchmark 上它落在 Opus 附近或以下,而不是靠近 Fable 5。这就是价格溢价买来的差距:不是”平均略好一点”,而是”能做便宜模型基本做不成的一类任务”。把这些榜单分数当快照看,逐项 benchmark 来源查 Anthropic 的 Transparency Hub;对路由重要的是方向,不是末位小数。
这张表的老实总结:对日常编码,多出来的分数改变不了结果,因为 Sonnet 5 本来就能关掉 issue。对前沿编码,这多出来的分数就是发货和卡死的分水岭。
价格算账:$50 档到底什么时候回本
标价是一个数字,每解决一个 issue 的成本是另一个,它们可能指向相反方向。下面两个负载把假设都写明了,你可以换成自己的数据。
场景 A,日常编码集群。 5 名开发者,每人每天 20 个任务,20 个工作日(每月 2,000 个任务)。每个日常任务:40K 输入,Sonnet 5 输出 8K(思考调低),Fable 5 输出 25K(思考始终开启)。假设任务都在两个模型能力范围之内,两边一次成功率都接近 1。
| 明细 | Sonnet 5(引入期) | Fable 5 |
|---|---|---|
| 每任务输入(40K) | $0.08 | $0.40 |
| 每任务输出 | $0.08(8K) | $1.25(25K) |
| 每任务成本 | $0.16 | $1.65 |
| 月度(2,000 任务) | $320 | $3,300 |
| 对比另一个 | 基准 | 约贵 10 倍 |
在日常活上,Fable 5 不是贵 5 倍,而是约 10 倍,因为始终开启的思考全堆在 $50 的输出行上。为 Sonnet 5 本来就能关掉的活付这个钱纯属浪费。
场景 B,困难长尾。 现在拿真正困难的多文件 issue,一次成功率就是全部胜负。用 SWE-bench Pro 通过率作替代:Fable 5 是 80.3%,Sonnet 5 是 63.2%。每次尝试:60K 输入,Fable 5 输出 40K,Sonnet 5 输出 30K。
| 明细 | Sonnet 5(引入期) | Fable 5 |
|---|---|---|
| 每次尝试成本 | $0.42 | $2.60 |
| 一次成功率 | 63.2% | 80.3% |
| 解决所需的期望尝试次数 | 约 1.58 | 约 1.25 |
| 每解决一个 issue 的成本(仅 token) | 约 $0.66 | 约 $3.24 |
单看 token,即便算进重试,Sonnet 5 每解决一个 issue 仍然更便宜,因为每次尝试价便宜五分之一,能买来很多次重试。所以选 Fable 5 的理由不是 token 成本理由,而是这个:SWE-bench Pro 通过率在最难的任务上美化了 Sonnet 5。在 Every benchmark 瞄准的那类问题上(Fable 5 拿 91、Opus 4.8 只有 63),Sonnet 5 的真实解决率远低于它 63.2% 的头条数字,重试次数飙升,有些 issue 它永远关不掉。一旦失败一个补丁的代价是一小时高级工程师时间、或者发出去一个 bug,那 $3 的 token 差额就不再是要紧的数字了。这就是 Fable 5 回本的时机:不是因为它更便宜,而是因为答错很贵,而它答错的次数更少。
给它算个数。一名高级工程师按 $120/小时 的综合成本算是 $2/分钟。如果把一个困难 issue 路由给 Fable 5 而不是 Sonnet 5,哪怕只省下 15 分钟人工拆解错误补丁的时间,那就是 $30 的工程师时间对上以单个美元计的 token 差额。盈亏平衡根本不接近。陷阱是把这套逻辑套到日常的 80% 上,那里根本没有要规避的错误补丁成本,因为 Sonnet 5 本来就会关掉 issue。分档这门手艺的全部纪律,就是让 Fable 5 的占比小到足以让它 10 倍的有效成本只落在有工程师工时可省的任务上。用测量而非口味来给这个占比定大小:大多数团队会发现真正的前沿只占流量的个位数百分比,而超过这个百分比的一切,都是花在任务并不需要的能力上的钱。
什么时候选 Claude Sonnet 5
绝大多数工作选 anthropic/claude-sonnet-5:
- 高并发有界输出。 分类、抽取、路由、审核。输出短,输入量巨大,往往缓存密集。Sonnet 5 的 $2/$10 和 $0.2/M 缓存读取把这类账单砍到 Fable 5 的一个零头。
- RAG 问答和摘要。 重活由检索完成,模型写一段有界回复。能力绰绰有余。
- 日常编码。 单文件修改、样板代码、测试脚手架、review 评论。63.2% SWE-bench Pro 足以应付不在前沿的工作。
- 任何对延迟敏感、需要交互的场景。 比起总要先思考的天花板模型,Sonnet 层的速度和价格更贴合聊天和助手界面。
什么时候选 Claude Fable 5
当任务处在能力前沿、答错才是昂贵结果时,选 anthropic/claude-fable-5:
- 前沿 Agent 编码。 困难的多文件 issue,17 分的 SWE-bench Pro 领先就是一次跑通和陷入重试循环的差别,而这里发出去一个错误补丁要耗真金白银的工程师时间。
- 长程自主运行。 通宵重构和多步 Agent 循环,必须在没人接住第 12 步走错时也能撑得住。
- 高级工程师级问题。 Every benchmark 瞄准的那类工作,Sonnet 5 的真实解决率会往下掉,而 Fable 5 的 91/100 正是伸手去够它的理由。
- 当你有访问权限时。 Fable 5 的可用性是窗口式的,所以把它设计成”活着时才路由过去的那一档”,而不是一个永久依赖。
什么时候两个都别选(以及改用什么)
有两类情况落在两档之间。
第一类是网络安全、生物化学、或模型蒸馏工作。 Fable 5 会检测这些并把它们路由到 Opus 4.8,所以为它们调 Fable 5 只是多加一跳路由。直接调 anthropic/claude-opus-4.8,跳过这一步。
第二类是难度区间的中段,那些难到 Sonnet 5 关不稳、但又没难到值得 Fable 5 那 10 倍有效成本的任务。这正是 Opus 4.8 待的地方:$5/$25,69.2% SWE-bench Pro,没有需要规划的可用性窗口。对很多团队来说,真正的路由树是三档而非两档,Opus 4.8 当日常困难的主力,Fable 5 只留给真正的前沿。Sonnet 5 对比 Opus 4.8 拆解了下边界;Opus 4.8 发布评测 讲了中段。
flowchart TD
A[Incoming task] --> B{Cyber / bio / distillation?}
B -->|Yes| C[anthropic/claude-opus-4.8]
B -->|No| D{Frontier-hard?<br/>failed answer is expensive}
D -->|No| E[anthropic/claude-sonnet-5]
D -->|Yes| F{Fable 5 in an access window?}
F -->|Yes| G[anthropic/claude-fable-5]
F -->|No| H[anthropic/claude-opus-4.8]
用 ofox 同时试两个:10 行代码 A/B
确定路由界线的老实做法,是在自己的任务上把两个都跑一遍,读 token 计数。ofox 把 Claude 线挂在同一个 OpenAI 兼容 endpoint(https://api.ofox.ai/v1)上,所以两次运行之间唯一变的就是模型 ID 字符串,一把 key 覆盖全部三档、无需单独的 Anthropic 计费。跑之前有两个坑:两个模型都对非默认的 temperature、top_p、top_k 返回 400,所以把采样参数留在默认值(下面例子就是这么做的)。还有,Fable 5 必须在 ofox 访问窗口里活着,它的调用才能解析成功;没挂牌时,要么等窗口,要么把那一个调用指向 Anthropic 自家 API。
Python:一个循环里 A/B 两个模型
from openai import OpenAI
client = OpenAI(base_url="https://api.ofox.ai/v1", api_key="YOUR_OFOX_KEY")
prompt = "Fix the race condition in this worker pool: ..."
for model in ["anthropic/claude-fable-5", "anthropic/claude-sonnet-5"]:
r = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": prompt}],
)
u = r.usage
print(model, u.prompt_tokens, u.completion_tokens)
盯着 completion_tokens 这一列。Fable 5 始终开启的思考就体现在这里,乘以 $50/M,就是有效成本差距藏身的地方。
Node:同样的形态
import OpenAI from "openai";
const client = new OpenAI({ baseURL: "https://api.ofox.ai/v1", apiKey: process.env.OFOX_KEY });
const prompt = "Fix the race condition in this worker pool: ...";
for (const model of ["anthropic/claude-fable-5", "anthropic/claude-sonnet-5"]) {
const r = await client.chat.completions.create({
model,
messages: [{ role: "user", content: prompt }],
});
console.log(model, r.usage.prompt_tokens, r.usage.completion_tokens);
}
在 20 到 30 个你真正困难的任务上跑一遍,把每个模型的输入和输出 token 加总,乘以规格表里的单价,再除以每个模型实际解决了多少个。这个”每解决一个 issue 的成本”、而不是标价,才是决定路由界线画在哪的数字。至于路由管道本身,Claude Code 混合路由模式 那篇讲了怎么选路由信号(输入长度、任务类型标签,或者只在失败时升级的置信度检查)。
迁移坑点:形态相同,三个 400
两个模型都保持 Messages API 的形态,但在老 Claude 上能跑通的同一个请求,在这两个模型上都可能返回 400。
| 变化 | 旧行为 | 在 Fable 5 / Sonnet 5 上 |
|---|---|---|
| 采样参数 | temperature / top_p / top_k 被接受 | 非默认值两边都返回 400 |
| 手动思考 | 部分模型接受 budget_tokens | 两边都返回 400;改用 effort |
| 关闭思考 | thinking: {type: "disabled"} 被接受 | 在 Sonnet 5 上可用;Fable 5 上返回 400(省掉这个参数) |
| 拒答 | 以错误抛出 | 两边都以 HTTP 200 加 stop_reason: "refusal" 返回;要处理它 |
Fable 5 那几行是最坑人的。思考始终开启,所以没有关闭开关,安全分类器还可能在半路把请求交给 Opus 4.8。在 API 上,选一个 fallback,这样拒答不会直接把请求停掉;Anthropic 的服务端 fallbacks 参数会在同一次调用里把被拒的请求转到 Opus 4.8 重新处理。如果你把一个 Sonnet 5 负载往上迁到 Fable 5 处理困难长尾,请为每个任务预留更多而非更少的输出 token,因为始终开启的思考违背了”更聪明的模型收工更快”这种直觉。
路由测试不是 benchmark 分数,而是每解决一个 issue 的成本:在你真实的困难任务上把两个模型都跑一遍,数 token,再数每个模型到底关掉了多少个。
替代方案
- ofox 把 Sonnet 5、Opus 4.8 和 Fable 5(在窗口期内时)挂在同一个 OpenAI 兼容 endpoint 上,所以在各档之间路由是改一个字符串,而不是接三套集成。实时价格在 模型目录 上。
- Opus 4.8 是值得明确点名的中段:$5/$25,69.2% SWE-bench Pro,永远可用,没有需要规划的窗口。对介于 Sonnet 5 天花板和 Fable 5 地板之间的任务,它往往是对的选择。
- Anthropic 官方 API 是专门针对 Fable 5 的兜底。当 Fable 5 没在聚合器上挂牌时,它自家 API 仍保留 $10/$50 单价,代价是多一把 key 和单独计费。
FAQ
Claude Fable 5 值得比 Sonnet 5 贵 5 倍吗? 只对最难的任务值。Fable 5 买来的是真实的能力跃升(SWE-bench Pro 80.3% 对 63.2%,Every 的 Senior Engineer 测试 91/100,而 Opus 4.8 只有 63),但按每解决一个 issue 的成本算,即便算进重试,Sonnet 5 仍然更便宜。Fable 5 回本的时机,是第一次答错的代价超过 token 差价。
Claude Fable 5 和 Sonnet 5 比价格差多少? 每百万 token $10/$50 对 Sonnet 5 的引入期 $2/$10(标准价 $3/$15)。引入期内是 5 倍,8 月 31 日后约 3.3 倍。缓存读取是 $1/M 对 $0.2/M。
ofox 上能用到 Claude Fable 5 吗? 断断续续能用。Sonnet 5 是常驻挂牌,ID 是 anthropic/claude-sonnet-5;Fable 5 以访问窗口形式提供,接入前先确认它在 ofox 目录上处于可用状态。
写代码时 Fable 5 比 Sonnet 5 强吗? 在前沿任务上明显更强(80.3% SWE-bench Pro,91/100 高级工程师测试)。日常编码 Sonnet 5 已经够用,成本只有五分之一。
为什么 Fable 5 会拒绝或路由到 Opus 4.8? 它的安全分类器把网络安全、生物、蒸馏请求交给 Opus 4.8。拒答以 HTTP 200 加 stop_reason: "refusal" 返回,所以读内容前先检查 stop reason。
能给 Fable 5 或 Sonnet 5 设置 temperature 吗? 不能。非默认采样参数在两边都返回 400,budget_tokens 也是。Fable 5 还会对 thinking: {type: "disabled"} 返回 400,因为思考始终开启。
Fable 5 和 Sonnet 5 的上下文窗口有多大? 两个都是 1M token,最大输出 128K。就这个选择而言,窗口打平;决定权在价格和能力。
我该从 Sonnet 5 切到 Fable 5 吗? 别整体切。把 Sonnet 5 当默认,只在 Sonnet 5 的输出没通过校验时才升级到 Fable 5。整体切换等于为大多数请求根本不需要的能力多付 5 倍钱。
本次核查所依据的信息来源
- Anthropic,“Claude Fable 5 and Mythos 5” 公告(Fable 5 $10/$50、Mythos 级、安全分类器路由到 Opus 4.8),2026 年 7 月 2 日核实:https://www.anthropic.com/news/claude-fable-5-mythos-5
- Anthropic,“Introducing Claude Fable 5” 文档(思考始终开启、无采样参数、拒答处理):https://platform.claude.com/docs/en/about-claude/models/introducing-claude-fable-5
- Anthropic,“Introducing Claude Sonnet 5” 发布博文,2026 年 6 月 30 日:https://www.anthropic.com/news/claude-sonnet-5
- Anthropic,“What’s new in Claude Sonnet 5” 文档(行为变化、定价):https://platform.claude.com/docs/en/about-claude/models/whats-new-sonnet-5
- Anthropic Transparency Hub(逐项 benchmark 来源):https://www.anthropic.com/transparency
- ofox 模型页
anthropic/claude-sonnet-5($2/$10 引入期、$0.2/M 缓存读取、1M 上下文),2026 年 7 月 2 日核实:https://ofox.io/models/anthropic/claude-sonnet-5 - ofox 模型目录(Fable 5 挂牌状态、实时价格),2026 年 7 月 2 日查验:https://ofox.io/models
- SWE-bench Pro / SWE-bench Verified / Every Senior Engineer 数字来自 Anthropic 发布材料和 Every 发布的 benchmark,与我们自己的 Fable 5 对比 Opus 4.8 对比 GPT-5.5 那篇交叉核对


