Fable 5 评测:
vs Opus 4.8 vs GPT-5.5
结论先行:能力上 Fable 5 全面领先,但要付 2 倍价格、忍受更慢的输出。这页帮你判断你的场景该不该上。
核心数据对比
| Fable 5 | Claude Opus 4.8 | GPT-5.5 | |
|---|---|---|---|
| SWE-Bench Pro | 80.3% | 69.2% | 58.6% |
| AA 智能指数 | 65 | 同价位档中位数 36 | |
| API 价格(输入/输出,每百万) | $10 / $50 | $5 / $25 | 输入 $5(约为 Fable 一半) |
| 上下文窗口 | 1M token | — | — |
| 最大输出 | 128K token | — | — |
| 输出速度 | 60.3 t/s(同档中位 68.7) | 更快 | 更快 |
| 首 token 延迟(TTFT) | ~81.7s(同档中位 2.71s) | 低 | 低 |
| 大批量离线折扣 | Batch 半价($5/$25) | Batch 半价 | Flex $2.50/$15 |
| 安全降级机制 | 有(触发后由 Opus 4.8 回答) | 无 | 无 |
| 数据保留要求 | 30 天(安全监控) | 无此特殊要求 | 无此特殊要求 |
速度与智能指数来自 Artificial Analysis;SWE-Bench Pro 为 Anthropic 发布数据。发布首日独立评测有限,数据会持续更新。
什么时候值得付 2 倍价格?
✅ 值:任务越长越复杂,差距越大
- 长程 agent 任务:在 Claude Code 等框架里连续工作数天、跨阶段规划、自检自纠——这是 Fable 5 拉开差距最大的场景。
- 大型代码库工程:5000 万行 Ruby 代码库的全库迁移一天完成(人工估计两个月+);Stripe 称"数月工程压缩到几天"。
- 超长上下文:1M token 窗口 + 跨百万 token 保持专注,配文件记忆效果提升是 Opus 4.8 的 3 倍。
- 视觉任务:当前视觉 SOTA——从科学图表里精确读数、从截图重建网页源码、纯截图通关宝可梦。
- 隐藏的成本反转:任务足够难时,Fable 5 用更少的 token、更少的返工达到同等质量,有效成本可能反而更低。这一点对长程推理任务成立,对短任务不成立。
❌ 不值:短平快、高并发、对延迟敏感
- 分类、摘要、模板化生成等明确的短任务——Opus 4.8 甚至 Sonnet 4.6 性价比更高。
- 对首响应延迟敏感的实时交互(TTFT 约 81.7 秒是同档最高一档)。
- 超大规模离线批处理——GPT-5.5 的 Flex 价($2.50/$15)仍是成本王者。
选型一句话
用能稳定过你质量线的最便宜模型:日常 → Sonnet 4.6;主力 → Opus 4.8;攻坚(长任务/大库/高难推理) → Fable 5。具体算账用 成本计算器。
两个对比时容易忽略的点
① 安全降级影响一致性:Fable 5 的分类器在网络安全、生物化学等领域会把请求转给 Opus 4.8 回答(按 Opus 计费并通知你)。做安全研究、生信等领域的团队要预估这 <5% 的触发对工作流的影响。
② 合规差异:Fable 5 强制 30 天数据保留(不训练、访问留痕),GPT-5.5 没有对应要求。有数据驻留约束的企业要把这条放进评估表。
想自己跑一遍对比?
OmniaKey 一个 key 实测 Fable 5 / GPT-5.5 / Gemini 3.1 Pro · Fable 5 限时 $3/$15 · 国内可直连
常见问题
Fable 5 和 Gemini 3.1 Pro 比怎么样?
Gemini 3.1 Pro 目前没有可直接对照的 SWE-Bench Pro 公开成绩,所以主表没把它列进来。就已公开的跑分而言,Fable 5 在编码与长程 agent 任务上领先所有公开可用的模型。对你自己的业务,最靠谱的是同题实测——OmniaKey 一个 key 可以同时调 Fable 5 / GPT-5.5 / Gemini 3.1 Pro。
Fable 5 到底怎么样?一段话评测
能力:当前公开模型第一,编码与 agent 任务领先幅度明显。速度:同档最慢一档,首 token 延迟约 80 秒。价格:Opus 4.8 的 2 倍。结论:长而复杂、可复利的任务(agent、大迁移、深推理)值得上,难任务的有效成本甚至可能反超;短平快任务不值。
为什么 Fable 5 响应这么慢?
深度推理设计所致,首 token 延迟约 81.7 秒(同档中位 2.71 秒)。务必开流式输出并调大客户端超时,工程实践见 fableapi.app。
写代码选 Fable 5 还是 Opus 4.8?
多文件重构、大代码库、长 agent 会话选 Fable 5(SWE-Bench Pro 80.3% vs 69.2%);日常小修小补选 Opus 4.8,更快且便宜一半。常见做法是按任务难度分流,换一行 model 字符串即可切换。