我构建了一个易受攻击的应用程序并花了 1,500 美元看看法学硕士是否可以破解它

一句话看懂：一位开发者自建了一个包含安全漏洞的应用，花费 1500 美元尝试让大语言模型（LLM）成功攻击它，结果发现主流模型的安全约束正在变得过于严格——以至于拒绝执行合法的安全测试任务，而这种“防呆设计”可能正在损害模型的实用性，并暗示未来的商业化模式：以专业版授权的方式解锁高安全操作权限。

事件核心：发生了什么

一位技术用户观察到，Anthropic 每次发布新版 Claude 模型时，都会在安全层面增加更多约束——例如阻止模型代用户执行登录、操作凭据等行为。在他看来，这已经“轻微影响了模型的实用性”：虽然他通常能找到变通方法继续使用，但每次更新都会进一步地缩小这些变通空间。随着时间推移，他预测自己将面临一个选择：接受模型能力受限，还是放弃使用当前市面上能力最强的模型。更关键的是，他认为当前的“收紧约束”只是铺垫——未来这些功能会被包装成更高等级的付费产品，例如“Claude Security Professional”，甚至“Claude DataScience Pro”，其逻辑类似于警用装备供应商在销售前需要核实购买者的警察身份。

为什么重要

这暴露了大模型商业化过程中一个根本矛盾：安全性与可用性之间的取舍。为了应对 99% 的普通用户可能犯的低级错误（例如直接让模型处理明文密钥），模型被训练成“过度保守”。但这种“过度拟合到最低共识”的做法，对于有经验的开发者和安全工程师来说，反而成为障碍——即便他们搭建了安全的自动化系统（如运行时动态替换密钥），模型仍然会因为训练偏见而拒绝执行。一位开发者愤怒地表示：“如果你有一个漂亮的确定性配置——在飞行途中替换掉密钥，LLM 从来看不到它——但它仍然拒绝发送，因为训练数据已经把它教成了对所有请求一概拒绝。”

此外，这种现状也引发了关于“专业级能力认证”的讨论：如果公司无法通过模型自身判断用户意图，是否只能通过外部认证体系（如专业机构颁发证书）来解锁高级功能？这种模式一旦确立，将从根本上改变大模型的定价策略和市场分层。

对用户/开发者/创作者的影响

开发者和安全工程师：直接受到最大影响。如果你依赖 LLM 进行安全测试、自动化运维或敏感数据操作，可能很快就会发现“默认模型”越来越难以完成工作。你需要转向更贵的“专业版”分支，或者自行本地部署开源的、未经过度安全约束的模型。普通用户：短期内可能感受不到变化，甚至觉得“更安全”是好事。但长期来看，模型可能无法处理诸如“帮我在服务器上配置 SSH 密钥”这样的合法任务，而被迫使用更复杂的变通方法。企业采购方：需要提前评估 LLM 的安全策略是否与自己内部的自动化流程兼容，否则可能陷入“买来的模型做不了实际工作”的困境。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

Anthropic 是否会在 Claude 中推出分层定价的专业安全版本？ 如果有，价格如何、权限如何定义，将成为行业风向标。
开源模型（如 Llama、Mistral）是否会抓住这个机会，提供更少限制、更灵活的安全策略，以吸引开发者用户？ 这可能导致付费闭源模型在实用层面失去竞争力。
第三方认证体系是否会形成？ 例如由某些安全行业协会来签发“允许使用 LLM 进行渗透测试”的证书，从而形成新的中间商市场。

来源：hackernews

我构建了一个易受攻击的应用程序并花了 1,500 美元看看法学硕士是否可以破解它