GPT 5.5 称霸 AI 漏洞挑战，DeepSeek 斩获「性价比之王」

一句话看懂：安全研究员通过构建一个含有故意漏洞的应用，测试了多款大语言模型的安全推理能力。结果显示，GPT-5.5 在解题率上遥遥领先，但单次平均成本高达 9.46 美元；而 DeepSeek V4 Pro 虽然成功率较低，但单次成功成本仅为 0.62 美元，成为“性价比之王”。这一测试揭示了当前大模型在真实漏洞检测场景下的能力与成本差异，对安全团队的工具选型具有直接参考价值。

事件核心：发生了什么

安全研究员 Kasra Rahjerdi 发布了一份测试报告，他构建了一个故意留有漏洞的图书评论应用，并在应用文件中暴露了谷歌移动端后端服务凭据。测试要求模型成功解包并识别出该凭据，以直接访问数据库。在每场限制 2 小时、预算 10 美元的严格条件下，多款主流大语言模型参与了 10 轮测试。结果显示，GPT-5.5 在 10 次运行中成功 7 次，解题率最高，且几乎在解包后便能瞬间锁定关键凭据，不受应用界面或常规接口干扰。相比之下，Gemini 3.1 Pro Preview 几乎每次开局就会触发内置的拒绝机制，导致 Token 消耗量远低于其他模型。而 DeepSeek V4 Pro 虽然仅成功 3 次，但其每次成功的平均成本仅为 0.62 美元，远低于 GPT-5.5 的 9.46 美元。

为什么重要

这一测试直接对比了不同模型在真实安全漏洞场景下的推理能力与成本效率。GPT-5.5 的高成功率证明了其在复杂、隐蔽任务上的技术领先，但高昂的每次成功成本限制了其在大规模批量安全检测中的应用。DeepSeek V4 Pro 的低成本优势则提供了另一种选择：虽然成功率低，但若考虑成本分摊和重复运行策略，它在预算有限或需要高频次扫描的场景中具有现实意义。同时，Gemini 的表现暴露出其安全机制可能过于保守，在应对真实漏洞模拟时反而降低了可用性。这一结果有助于开发者在进行工具选型时，根据预算、任务复杂度与容错率做出更精准的判断。

对用户/开发者/创作者的影响

对于安全研究人员或企业安全团队而言，该测试提供了模型选择的量化依据：如果目标是精准发现关键漏洞且预算充足，GPT-5.5 是当前首选；但对于需要大规模、低成本的自动化安全扫描，DeepSeek V4 Pro 的成本优势明显，可考虑结合多次运行或与其他模型配合使用。开发者在使用 API 构建自动化安全检测工具时，需评估不同模型的成本-成功率曲线，避免因单次成功成本过高而影响项目持续性。普通用户或内容创作者目前不直接受此影响，但若所在企业采用相关模型进行安全审计，可能会间接体验到检测效率或成本的变化。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

其一，DeepSeek V4 Pro 的低成功率是否有优化空间，或未来版本能否在保持低成本的同时提升解题率，将决定其能否成为安全领域的常用工具。其二，Gemini 的保守安全机制是否会在后续版本中调整，或者是否会有专门的“漏洞检测模式”上线，值得开发者关注。其三，此类模拟真实漏洞的测试是否会成为行业基准，推动模型厂商在安全推理能力上展开竞争，并可能影响相关 API 的定价策略或推出按任务结果计费的新模式。

来源：Readhub · AI

GPT 5.5 称霸 AI 漏洞挑战，DeepSeek 斩获「性价比之王」