横评 · 数据截至 2026-06-09

Fable 5 评测：
vs Opus 4.8 vs GPT-5.5

Q: Fable 5 和 Gemini 3.1 Pro 比怎么样？

Gemini 3.1 Pro 目前没有可直接对照的 SWE-Bench Pro 公开成绩。就已公开跑分而言，Fable 5 在编码与长程 agent 任务上领先所有公开可用的模型；对具体业务建议同题实测对比。

Q: Fable 5 到底怎么样？

能力当前公开模型第一，编码与 agent 任务领先明显；速度同档最慢一档，首 token 延迟约 80 秒；价格是 Opus 4.8 的 2 倍。长而复杂的任务值得用，短平快任务用 Opus 4.8 或 Sonnet 4.6 更划算。

Q: 为什么 Fable 5 响应这么慢？

深度推理设计所致，首 token 延迟约 81.7 秒（同档中位 2.71 秒）。务必开启流式输出并调大客户端超时。

Q: 写代码选 Fable 5 还是 Opus 4.8？

多文件重构、大代码库、长 agent 会话选 Fable 5（SWE-Bench Pro 80.3% vs 69.2%）；日常小修小补选 Opus 4.8，更快且便宜一半。

结论先行：能力上 Fable 5 全面领先，但要付 2 倍价格、忍受更慢的输出。这页帮你判断你的场景该不该上。

核心数据对比

	Fable 5	Claude Opus 4.8	GPT-5.5
SWE-Bench Pro	80.3%	69.2%	58.6%
AA 智能指数	65	同价位档中位数 36
API 价格（输入/输出，每百万）	$10 / $50	$5 / $25	输入 $5（约为 Fable 一半）
上下文窗口	1M token	—	—
最大输出	128K token	—	—
输出速度	60.3 t/s（同档中位 68.7）	更快	更快
首 token 延迟（TTFT）	~81.7s（同档中位 2.71s）	低	低
大批量离线折扣	Batch 半价（$5/$25）	Batch 半价	Flex $2.50/$15
安全降级机制	有（触发后由 Opus 4.8 回答）	无	无
数据保留要求	30 天（安全监控）	无此特殊要求	无此特殊要求

速度与智能指数来自 Artificial Analysis；SWE-Bench Pro 为 Anthropic 发布数据。发布首日独立评测有限，数据会持续更新。

什么时候值得付 2 倍价格？

✅ 值：任务越长越复杂，差距越大

长程 agent 任务：在 Claude Code 等框架里连续工作数天、跨阶段规划、自检自纠——这是 Fable 5 拉开差距最大的场景。
大型代码库工程：5000 万行 Ruby 代码库的全库迁移一天完成（人工估计两个月+）；Stripe 称"数月工程压缩到几天"。
超长上下文：1M token 窗口 + 跨百万 token 保持专注，配文件记忆效果提升是 Opus 4.8 的 3 倍。
视觉任务：当前视觉 SOTA——从科学图表里精确读数、从截图重建网页源码、纯截图通关宝可梦。
隐藏的成本反转：任务足够难时，Fable 5 用更少的 token、更少的返工达到同等质量，有效成本可能反而更低。这一点对长程推理任务成立，对短任务不成立。

❌ 不值：短平快、高并发、对延迟敏感

分类、摘要、模板化生成等明确的短任务——Opus 4.8 甚至 Sonnet 4.6 性价比更高。
对首响应延迟敏感的实时交互（TTFT 约 81.7 秒是同档最高一档）。
超大规模离线批处理——GPT-5.5 的 Flex 价（$2.50/$15）仍是成本王者。

选型一句话

用能稳定过你质量线的最便宜模型：日常 → Sonnet 4.6；主力 → Opus 4.8；攻坚（长任务/大库/高难推理） → Fable 5。具体算账用成本计算器。

两个对比时容易忽略的点

① 安全降级影响一致性：Fable 5 的分类器在网络安全、生物化学等领域会把请求转给 Opus 4.8 回答（按 Opus 计费并通知你）。做安全研究、生信等领域的团队要预估这 <5% 的触发对工作流的影响。

② 合规差异：Fable 5 强制 30 天数据保留（不训练、访问留痕），GPT-5.5 没有对应要求。有数据驻留约束的企业要把这条放进评估表。

想自己跑一遍对比？

OmniaKey 一个 key 实测 Fable 5 / GPT-5.5 / Gemini 3.1 Pro · Fable 5 限时 $3/$15 · 国内可直连

获取 API 接入 →

常见问题

Fable 5 和 Gemini 3.1 Pro 比怎么样？

Gemini 3.1 Pro 目前没有可直接对照的 SWE-Bench Pro 公开成绩，所以主表没把它列进来。就已公开的跑分而言，Fable 5 在编码与长程 agent 任务上领先所有公开可用的模型。对你自己的业务，最靠谱的是同题实测——OmniaKey 一个 key 可以同时调 Fable 5 / GPT-5.5 / Gemini 3.1 Pro。

Fable 5 到底怎么样？一段话评测

能力：当前公开模型第一，编码与 agent 任务领先幅度明显。速度：同档最慢一档，首 token 延迟约 80 秒。价格：Opus 4.8 的 2 倍。结论：长而复杂、可复利的任务（agent、大迁移、深推理）值得上，难任务的有效成本甚至可能反超；短平快任务不值。

为什么 Fable 5 响应这么慢？

深度推理设计所致，首 token 延迟约 81.7 秒（同档中位 2.71 秒）。务必开流式输出并调大客户端超时，工程实践见 fableapi.app。

写代码选 Fable 5 还是 Opus 4.8？

多文件重构、大代码库、长 agent 会话选 Fable 5（SWE-Bench Pro 80.3% vs 69.2%）；日常小修小补选 Opus 4.8，更快且便宜一半。常见做法是按任务难度分流，换一行 model 字符串即可切换。

Fable 5 评测：vs Opus 4.8 vs GPT-5.5

核心数据对比

什么时候值得付 2 倍价格？

✅ 值：任务越长越复杂，差距越大

❌ 不值：短平快、高并发、对延迟敏感

选型一句话

两个对比时容易忽略的点

想自己跑一遍对比？

常见问题

Fable 5 评测：
vs Opus 4.8 vs GPT-5.5