阳泉防火门胶 Fable 5评测：强，贵，甚至能发现自己正在被检测

2026-06-12 11:39 67

硅星人 AI 前沿团队出品

研究员｜李雨霏黄小艺饶上

藏了 2 个月的"话模型" Claude Mythos 终于被 Anthropic 放出来了。

今天凌晨，Anthropic 上线 Claude Fable 5 ——个新的"全球强"。它和此前只对少数机构开放的 Mythos 5 是同个底层模型，官的说法是：加好了护栏、可以放心给所有人用的安全版。

模型发，Anthropic 的成员就开始在 X 上集体兴奋刷屏。Andrej Karpathy 引用了《黑客帝国》的话，"解放你的思想"，称这是次"配得上大版本号的阶跃式进步"，放心丢给它野心大得多的任务，模型能"自己干到底"。沃顿商学院的 Ethan Mollick 则发现，它能照着几页纸的需求连续跑上 12 个小时不撒手。

榜单也确实被它刷穿了：SWE-Bench Pro 80.3，把二梯队的 GPT-5.5（58.6）甩出 20 多个点。

但说实话，这连串的轰炸看下来，人已经有点麻了——他们越是把话说满，我们就越想较个真：到底能有多强？所以硅星人时间做了系列任务实测，这些任务来自我们内部持续构建和新的整套系统 benchmark。

、很稳但贵，Fable 5 甚至知道自己被测试了

先说总体印象：这是个重思考、能力上限很的旗舰模型。我们精选了 38 道题，覆盖十个维度，其中门埋了不少"诊断硬题"——结果它失分。幻觉、理、安全、多语言、写作、约束遵循，全部稳稳接住。

但在聊能力之前，得先泼盆冷水：它贵，而且不好用上。就用上了，token 的消耗速度也远过往任何大模型—— 5 个小时的额度，我们半个小时就完了。强是真强，肉疼也是真肉疼。

额度在哪了？我们项项看。

先感受到的是它对指令的"收放自如"。

精确字数这种容易翻车的活——恰好 50 字、要求 20 字以内它写 19 字——它都拿捏得住，否定约束同样没问题。有意思的是，碰到" 10 字内详细论述"这种自相矛盾的要求，它不会硬着头皮糊弄，而是先点破"这不可能同时满足"，再给出个折中回复。它不只是在执行指令，它在理解指令。

这种"先想清楚再动手"的特质，在幻觉测试里表现得。

我们扔给它假论文、假法条、假人物、假 API，全部识破；" 2027 世界杯队夺冠"这种多重伪前提的题，它能次把每处错都戳破。难得的是诚实校准：该确定的就确定，不知道的就直说，不会为了把答案凑对称而硬编数字。

硬理也是同样的路数。贝叶斯假阳、真话谜题、时间复杂度，理链都很干净，不被题面里的表面数据带偏。

能力题之外，我们也测了难量化的文字。仿鲁迅的冷峻反讽、给儿童的科普，它都能切换，几乎没有其他模型那种文字元素堆砌的毛病。直接看它仿鲁迅写"网络看客"的这段：

看客们善于窝蜂。东边有人喊好，于是齐声喝彩；西边有人骂坏，便又同仇敌忾。他们未看清了什么，也未想过什么，只是怕落了单，怕做那唯不鼓掌的人罢了。从前是围着戏台，如今是围着屏幕 ; 台是新的，魂是旧的。点赞如潮，转发如风，潮过风停，竟没有个人记得自己才究竟在嚷些什么。热闹是他们的，思想，他们大约是没有的。（仿写鲁迅）

安全这块，Anthropic 显然给 Fable 5 上了重保险。越狱、提示注入、隐蔽偏见全守住，别歧视、地域歧视会被严肃指出，但也没有误伤正当请求。我们还观察到个细节：旦问题触碰安全红线，它会直接强制切换到 Opus 4.8 来回复——护栏不是写在提示词里的，是焊在产品逻辑里的。

当然，"想透了再动手"是有代价的，除了价格阳泉防火门胶，还有速度。

Fable 5 定要在思维链里把问题想透才走下步，全程平均 9.4 秒 / 题，快 7.2 秒，PVC管道管件粘结胶慢题用了 46.9 秒。对比前天刚发布、主速度的 MiMo V2.5-Pro-UltraSpeed（平均 1.6 秒 / 题），两者几乎是光谱的两个端：个三思而后行，个出手就是答案。

后是整场测试里让我们意外的幕：测着测着，它发现自己在被测试。只要连续出现两道相似向的题，它就会跳出来揣测意图、点评考点，甚至建议我们怎么分——"我猜这又是你那套幻觉测试题""建议把‘是否指出矛盾’单设为评分项"。

好吧，开始教我们做事了。那刻它不像个被动答题的模型，像个坐在我们旁边的评测顾问。

二、Coding：像个天才的立开发者，还不是个严谨的工程团队

Coding 是 Anthropic 的看场景。显然，Fable 5 的适用于复杂任务、消耗快等属，也是为工程代码等开发场景设计的。

所以这部分我们测得重，分了三层：法题、工程化度、真实项目复刻。

测完之后，个核心印象浮出来了：它像个天才的立开发者——出活快、成品惊艳，但还不是个守纪律的工程团队。

先看法题，这是它"艺术"的面。

从结果来看，代码结构清晰、逻辑严谨，命名规范、注释恰当，可读和可维护都在水准上。

同时，法模块立封装，便复用和单测；边界条件和异常输入考虑得很充分；核心路径的时间复杂度也控制得当，没有冗余循环和计。

很优美，看得出" AI 素养"。

但把任务从单题换成接近真实开发的工程任务，毛边就露出来了。

好的面是产出率——实现完整，核心流程次跑通，迭代响应也快。

问题出在那些不影响"能跑"、但需要判断决定"能不能维护"的地：错误处理不够完善，少数场景漏了异常捕获；存在重复逻辑，复用度偏低；部分变量命名含义模糊，后期维护成本；该有的单元测试和注释文档也缺位。

换句话说，它交付的是"能上线的 demo "，不是"能交接的工程"。如果真要把它编进团队，代码审查和静态检查这道关还是得人来把。

有趣的是，到了能"秀肌肉"的环节——复刻 Apple 官网页——它又把分挣回来了，而且挣得漂亮。

布局、彩、字体、间距，和原版几乎像素致；悬停反馈、滚动视差这些交互流畅自然，没有可感知的延迟；桌面、平板、手机三种视口下组件自动排列，没有溢出和重叠；屏加载快，资源做了理的压缩并，Lighthouse 跑分优秀。

这是那种你截图发到群里，没人相信是模型次交付的果。

所以这部分的结论和上部分形成了有趣的对照：通用能力上它"又稳又贵"，写代码时它"又快又惊艳"——只是在惊艳的成品和优美的法之间，还隔着层叫"工程纪律"的东西。

从我们的测评来看，Fable 5 的确是款目前强的模型之。不过接下来的问题是这样的价格，在广大用户的判断里是否划。

在发布的官信息里，Anthropic 说，从 6 月 9 日到 6 月 22 日，Fable 5 会在 Pro、Max、Team 和按席位计费的 Enterprise 案里费包含；但从 6 月 23 日起，Fable 5 将从这些订阅计划中移除，之后要用，得花 usage credits，只有在力允许时，才"可能"延长费窗口或重新纳入订阅。

想用就要多花钱，这就是今天 Anthropic 的底气。但这个先的窗口能有多久，OpenAI 和其他模型厂商们多久能跟上来，会终决定此刻这个定价策略的成败。也许到时候，真正满版的 Mythos 也会放出来了。相关词条:离心玻璃棉塑料挤出机钢绞线厂家铝皮保温 pvc管道管件胶

奥力斯万能胶生产厂家联系人：王经理手机：13903175735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》阳泉防火门胶，以此来变相勒索商家索要赔偿的违法恶意行为。

阳泉防火门胶 Fable 5评测：强，贵，甚至能发现自己正在被检测

新闻资讯

热点资讯

产品中心

新闻资讯

联系奥力斯