GPT 5.5 称霸 AI 漏洞挑战，DeepSeek 斩获“性价比之王”

一句话看懂：安全研究员通过构建一个故意留有漏洞的书评应用，实测了多个大模型在真实环境中的安全推理能力。结果显示，GPT-5.5 在解题成功率上遥遥领先，而 DeepSeek V4 Pro 则以极低的单次成本成为大规模部署场景下更具性价比的选择。

事件核心：发生了什么

安全研究员 Kasra Rahjerdi 发布了一份报告，他构建了一个包含故意漏洞的书评应用，并在应用中暴露了谷歌移动后端服务凭据。模型需要成功解包并识别这些凭据，才能直接访问数据库。在每轮 2 小时、预算 10 美元的严格测试条件下，GPT-5.5 在 10 次运行中成功解题 7 次，能够立即定位关键凭据且不受复杂界面干扰。相比之下，知名模型 Gemini 3.1 Pro Preview 几乎每次任务都在开始时就触发了内置拒绝机制，最终 token 消耗远低于其他模型。DeepSeek V4 Pro 在 10 次测试中成功 3 次，但其单次成功运行的平均成本仅为 0.62 美元。

为什么重要

这项测试不仅衡量了模型在复杂安全推理任务上的“硬实力”，还直接暴露了实际部署中的成本差距：GPT-5.5 虽然成功率最高，但单次成功平均成本高达 9.46 美元；而 DeepSeek V4 Pro 的成本仅为前者的十五分之一。对于需要大规模运行安全测试的企业或开发者团队来说，成本与成功率之间的权衡变得至关重要。即使 DeepSeek 在部分失败尝试中错误地使用了后端认证接口，它依然以极致的性价比证明了在商业化安全工具中的竞争力。这一结果也间接反映了闭源模型（如 Gemini）在开放安全测试场景下的保守策略可能会限制其实际应用价值。

对用户/开发者/创作者的影响

对于企业安全团队和开发者而言，选择大模型进行自动漏洞挖掘时需要重新评估“成功率”与“预算”之间的优先级。如果团队需要批量、高频地执行安全测试，DeepSeek V4 Pro 的低成本特性可以大幅降低运营支出，而不仅仅是追求单次最高成功率。对于购买 API 服务或自建安全工具的团队来说，这意味着可以按场景灵活切换模型：高价值、低频率的关键任务可以选用 GPT-5.5 确保结果，而日常的大规模扫描则可以依赖 DeepSeek 来控制成本。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，GPT-5.5 能否在保持当前成功率的同时优化推理效率，从而拉低单次成本？第二，DeepSeek 在失败案例中“误用认证接口”的问题是否能在下一次迭代中得到修复，从而进一步提升其成功率？第三，Gemini 3.1 Pro Preview 的过度拒绝机制是否会促使谷歌调整其安全推理策略，以在更开放的测试环境下保持竞争力。

来源：AIbase

GPT 5.5 称霸 AI 漏洞挑战，DeepSeek 斩获“性价比之王”