GPT 5.5 称霸 AI 漏洞挑战,DeepSeek 斩获“性价比之王”

GPT 5.5 称霸 AI 漏洞挑战,DeepSeek 斩获“性价比之王”

GPT 5.5 称霸 AI 漏洞挑战,DeepSeek 斩获“性价比之王”

一句话看懂:安全研究员通过构建一个故意留有漏洞的书评应用,实测了多个大模型在真实环境中的安全推理能力。结果显示,GPT-5.5 在解题成功率上遥遥领先,而 DeepSeek V4 Pro 则以极低的单次成本成为大规模部署场景下更具性价比的选择。

事件核心:发生了什么

安全研究员 Kasra Rahjerdi 发布了一份报告,他构建了一个包含故意漏洞的书评应用,并在应用中暴露了谷歌移动后端服务凭据。模型需要成功解包并识别这些凭据,才能直接访问数据库。在每轮 2 小时、预算 10 美元的严格测试条件下,GPT-5.5 在 10 次运行中成功解题 7 次,能够立即定位关键凭据且不受复杂界面干扰。相比之下,知名模型 Gemini 3.1 Pro Preview 几乎每次任务都在开始时就触发了内置拒绝机制,最终 token 消耗远低于其他模型。DeepSeek V4 Pro 在 10 次测试中成功 3 次,但其单次成功运行的平均成本仅为 0.62 美元。

为什么重要

这项测试不仅衡量了模型在复杂安全推理任务上的“硬实力”,还直接暴露了实际部署中的成本差距:GPT-5.5 虽然成功率最高,但单次成功平均成本高达 9.46 美元;而 DeepSeek V4 Pro 的成本仅为前者的十五分之一。对于需要大规模运行安全测试的企业或开发者团队来说,成本与成功率之间的权衡变得至关重要。即使 DeepSeek 在部分失败尝试中错误地使用了后端认证接口,它依然以极致的性价比证明了在商业化安全工具中的竞争力。这一结果也间接反映了闭源模型(如 Gemini)在开放安全测试场景下的保守策略可能会限制其实际应用价值。

对用户/开发者/创作者的影响

对于企业安全团队和开发者而言,选择大模型进行自动漏洞挖掘时需要重新评估“成功率”与“预算”之间的优先级。如果团队需要批量、高频地执行安全测试,DeepSeek V4 Pro 的低成本特性可以大幅降低运营支出,而不仅仅是追求单次最高成功率。对于购买 API 服务或自建安全工具的团队来说,这意味着可以按场景灵活切换模型:高价值、低频率的关键任务可以选用 GPT-5.5 确保结果,而日常的大规模扫描则可以依赖 DeepSeek 来控制成本。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,GPT-5.5 能否在保持当前成功率的同时优化推理效率,从而拉低单次成本?第二,DeepSeek 在失败案例中“误用认证接口”的问题是否能在下一次迭代中得到修复,从而进一步提升其成功率?第三,Gemini 3.1 Pro Preview 的过度拒绝机制是否会促使谷歌调整其安全推理策略,以在更开放的测试环境下保持竞争力。

来源:AIbase

celebrityanime
celebrityanime
文章: 5538

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注