当 Anthropic 把博弈摆上桌面

一纸行政命令,要求 Anthropic 立即停服 Fable 5 与 Mythos 5。理由是"国家安全":据 Anthropic 理解,政府认为自己发现了一种绕过或"越狱" Fable 5 的方法。

命令本身很短。Anthropic 是在美东时间当天下午 5:21 收到信函的,信中未提供具体的国家安全关切细节,也没有说明"通用越狱"如何定义,没有给出可申诉的窗口期,也没有解释为什么"非通用"或"已修复"不构成减轻情节。监管者握着一支没有刻度的尺,要求被监管者停下手里的活。

接下来的事才是重点——也是这件事真正值得关注的起点。

Anthropic 没有沉默,也没有硬顶。它做了两件并行的事:一边依法停服,执行了指令;一边发了一份措辞克制的公开声明,称这是一场误解,正努力尽快恢复访问,并批评程序不公正——没有给被监管方陈述技术事实的机会。声明末尾预告:24 小时内披露更多细节,把这件事拉到公共场域。

这不是"反抗",也不是"配合"。这是一种过去在 AI 行业从未见过的姿态:合规,但抗议。它的重量在于,它标志着前沿 AI 公司从被动接受监管转向主动争夺监管定义权——Anthropic 拒绝让监管者在密室里单方面裁定"什么算国家安全",它要把这个定义过程拉到阳光下。

过去五年,前沿 AI 公司面对政府指令的标准反应模式,可以压缩成一句话:私下解释,公开顺从。2023 年那批自愿安全承诺,是在白宫签的;关于《AI 行政令》的技术澄清,是通过行业协会递的;OpenAI、Google DeepMind、xAI 在被问及敏感部署问题时,标准答案是"我们与监管机构保持建设性对话"。

没有人把分歧摆上桌面,更没有人去争"谁来定义什么算国家安全风险"。

Anthropic 这次打破了模板。它没有在私下渠道里反复澄清,而是直接告诉公众:监管者对技术事实的判断是错的,程序是不公正的,我们接受停服结果,但不接受停服理由。它不仅在争一个具体命令的对错,它在争定义权本身——而这,才是这件事真正的重量。

24 小时后披露的技术细节,把这一定义权之争从"姿态"推向了"实质"。

Anthropic 公开的复现路径显示:被监管方用来证明"这两款模型危险"的证据,实际上是让模型读取特定代码库并修复软件缺陷——这一类操作在 OpenAI GPT-5.5 等其他公开模型中已广泛可用,且被日常用于防御;Anthropic 审阅了一份据信是政府指令依据的报告,并验证其中展示的能力水平并非 Mythos 或 Fable 5 特有。没有证据表明该路径带来了这两款模型特有的能力跃迁。换句话说,被监管方用来证明"这两款模型危险"的证据,实际上证明的是"这件事所有前沿模型都做得到"。

这一刀切到了要害。监管者隐含的逻辑是:"你的模型能,所以你的模型危险。"Anthropic 的反驳是:"所有模型都能,所以这个标准本身就是错的。"

这不是技术细节的争论,是技术事实裁定权的争夺。谁有权说"这一类操作构成实质性越狱"?谁有权说"这一类越狱构成国家安全风险"?过去,这些判断在监管机构的密室里完成;现在,Anthropic 把它拖到了技术社区和公众都能审视的场域——这正是"主动争夺监管定义权"的具体落地。

接下来是 Anthropic 真正想说的话,也是这件事为什么不能只当作一条科技新闻看的原因。

Anthropic 明确表示,不同意"发现一个狭窄的潜在越狱就足以召回一个已部署给数亿人的商业模型"这一标准;它认为若该标准应用于整个行业,基本上将停止所有前沿模型供应商的新模型部署。没有哪个团队敢在存在任何可证明的越狱路径时继续上线新版本,因为那等于把公司命运交给一次学术复现。

Anthropic 实际上在警告:这道禁令确立的先例,比这道禁令本身更危险。它不是一家公司在为自己辩护,它是在划一条行业级的红线——这条红线一旦被监管者默认,整个前沿 AI 的部署节奏都会被锁死。

Anthropic 真正在博弈的不是这一道命令,是这道命令背后的监管模板;而其他厂商是否跟进,决定的是这条红线由谁来画。

到这里,论点需要一根钉子:这件事到底改没改写政府与前沿 AI 实验室的关系模板?

我的判断:改没改写,取决于接下来 30 到 90 天。

如果 OpenAI、Google DeepMind、xAI 在类似情境下继续选择沉默顺从,如果美国商务部或白宫对 Anthropic 的公开声明不做任何回应,或者以强硬法律手段迫使 Anthropic 收回声明、改走私下渠道——那么"主动争夺监管定义权"就只是一次孤立的姿态,没有真正撼动关系模板。Anthropic 会被当成不守规矩的异类,其他厂商学到的教训是:别学它。

反之,如果其他厂商开始效仿这种"合规但抗议"的双轨姿态,如果监管机构被迫在公共场域回应技术质疑,如果"私下解决"逐渐被"公开博弈"取代——那么这件事就是一个转折点。AI 行业与监管方的关系,会从配合走向博弈,从单向接受走向双向定义。

我倾向于前者,但留出窗口给后者。原因是:博弈是有成本的。公开抗议会消耗政治资本,会招来更严厉的下一道命令,会让公司在其他监管议题上失去合作余地。Anthropic 之所以敢付这个成本,是因为它判断"沉默的代价更高"——沉默意味着监管者可以单方面定义"国家安全",而单方面定义的累积,会比特朗普的某一道行政命令危险得多。

其他厂商是否也这么判断,30 天内见分晓。

最后说一件容易忽略的事。

AI 行业过去习惯了"技术中立"的叙事:我们做模型,政府定规则,井水不犯河水。这种叙事在过去是舒适的,因为监管者不懂技术,需要被监管者配合。

但 2024 年以后,这个舒适区在缩小。监管者开始用"通用越狱""可复现路径""国家安全"这种带技术含义的词汇来下命令,而这些词汇的定义权,过去默认属于实验室。一旦监管者用技术语言下命令,实验室就再也无法用"你们不懂技术"来回避——你必须正面回应"什么算通用、什么算可复现、什么算危险"。

Anthropic 这次做的事,本质上是把"定义权"从后台拉到了前台。它不再接受监管者在密室里单方面定义这些词汇,而是把定义过程变成了一个公开的、有技术证据支撑的辩论。

这件事能不能成为模板,不取决于 Anthropic 一家,取决于整个行业愿不愿意为"公开博弈"付成本。

如果不愿意,Anthropic 就是先烈;如果愿意,Anthropic 就是先驱。

答案会在下一个监管争议里揭晓。