
一句话看懂:美国白宫正在与Anthropic讨论建立一套标准化框架,用于评估AI模型安全漏洞(行业俗称“越狱”攻击)的严重程度,并据此决定政府是否需要干预。这是针对此前因Anthropic拒绝主动下架被指有安全漏洞的最新模型后,美国政府强制实施出口管制的一次政策转向——双方开始从冲突走向标准共建。
事件核心:发生了什么
2026年6月,美国白宫与Anthropic的谈判从对特定模型是否应被下架的分歧,转向共同制定AI安全评估基准。此前,Anthropic发布最新大模型Fable 5和Mythos 5后,白宫认为存在可被越狱(jailbreak)的安全漏洞,而Anthropic CEO Dario Amodei则持不同看法,认为漏洞范围有限且不构成实质性安全威胁。由于双方对模型风险的判断标准差异过大,争议直接导致白宫对该模型实施出口管制,禁止海外用户访问,迫使Anthropic将模型从市场撤回。
冲突发生后,双方经过数轮高层会议——包括Anthropic联合创始人Tom Brown、商务部长Howard Lutnick和新任国家网络主管Sean Cairncross的直接参与——才将焦点转移到建立一套通用的、可量化的安全评估基准上来。这些基准将具体包括:安全防护被规避的程度、暴露出的模型能力范围,以及漏洞被实际利用可能产生的后果等级。
目前,针对Anthropic模型的出口管制尚未解除,但双方同意以制定技术标准的方式继续推进谈判。Anthropic已派出高级研究人员和团队前往商务部参与闭门会议。
为什么重要
这一事件标志着美国政府对大模型安全问题的监管正在从“一事一议”的事后干预转向“系统化规则”的建设。过去,当白宫与AI公司在模型安全判断上出现分歧时,缺乏第三方定义和裁量机制,监管只能依靠行政权力直接切断市场。如果这套框架落地,它将首次为AI行业提供可参照的、跨企业的“越狱/安全脆弱性等级”评估体系。对于各大模型厂商来说,这意味着:未来推出新模型前,必须通过一套政府认可的基准测试,否则可能面临相似的市场准入限制。
此外,谈判进程中还有一个值得注意的事实是:Anthropic最初抗辩的核心观点——不存在完全免疫越狱的AI模型——在G7会议期间私下得到其他主要AI公司和部分国家领导人的认可。这并不代表行业认为安全问题不重要,而是暗示监管方需要接受绝对安全并不存在这一现实,将目标转向“可接受的风险阈值”的定义。
对用户/开发者/创作者的影响
对于普通用户和开发者,目前最直接的影响是Anthropic的Fable 5与Mythos 5仍处于出口管制之下,海外用户无法通过API或产品界面正常使用这两个最强模型。这意味着短期内,依赖Anthropic模型进行应用开发和内容创作的团队可能需要切换至其他版本或替代模型。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
如果新的安全评估框架被采纳,未来可能影响所有AI模型的上线流程:开发者可能需要提交更详细的越狱测试报告,模型的上线周期可能被拉长,同时合规成本上升。不过,更清晰的规则也有望减少类似Fable 5突然被全量下架这种极端情况。对于创作者来说,当前不会直接感受到政策变化,但若出口管制常态化,跨境使用最新AI模型可能会持续受到延迟和限制。
值得关注的后续
1. 出口管制何时解除:这是目前最明确的观察指标,解除将意味着双方对安全评估基准达成阶段性共识。
2. 标准能否复制:如果这套评估框架成型,其他AI公司(如OpenAI、Google DeepMind)是否会主动采纳,或者商务部是否会将其扩展至所有前沿模型。
3. 行业影响:其他国家和地区的监管机构(如欧盟AI办公室)是否会跟进类似框架,进而形成跨国互认的安全基准体系。


