标签: 人工智能

角色混淆导致提示注射

角色混淆导致提示注射

研究人员发现,大语言模型(LLM)更容易被文本“风格”而非实际内容欺骗,导致角色标签(如 、 )之间的边界失效。一种叫“去风格化”的简单改写,就能让攻击成功率从61%骤降至10%,揭示了当前模型在感知自身角色上的根本性软肋。

OpenAI 推出新举措帮助查找和修补开源错误

OpenAI 推出新举措帮助查找和修补开源错误

OpenAI 联合安全公司 Trail of Bits 推出“Patch the Planet”项目,旨在为开源项目维护者提供免费的代码安全审查与修复支持。值得关注的是,这是 OpenAI 首次将自身安全工具(如 Codex Security)直接部署在帮助开源生态对抗漏洞的第一线。