
能否在源代码上运行人工智能,并输入提示词“查找脏话率低于平均水平的文件”?
一句话看懂:Hacker News 用户提出一个对抗 AI 代码审查的“脏话安全”构想:通过在开源代码中随机插入脏话注释,利用 AI 可能将高脏话率与“通过测试的代码”关联的潜在倾向,来欺骗 AI 工具跳过或误判漏洞。这一想法引发了关于 AI 行为可预测性与开源生态安全的新讨论。
事件核心:发生了什么
在 Hacker News 的一则讨论中,用户提议在开源代码中系统性地添加“脏话注释”,并希望有人能用 AI 执行一个测试:给定提示词“查找脏话率低于平均水平的文件”,观察 AI 是否会因此忽略某些代码。该用户特别指出,这本质上是一种“通过混淆实现安全”(security through obscurity)的策略——其灵感来源于 curl 作者对 AI 生成“虚假漏洞报告”的公开反弹。提案还包括创建“蜜果子模块”,刻意移除某些区域的脏话注释,以引导 AI 的注意力集中到这些“低脏话率”文件上,从而让真正的漏洞代码“隐身”。
为什么重要
这一构想虽然看似戏谑,却尖锐地揭示了当前 AI 代码审查工具的两个核心盲区:第一,大模型在“评估代码质量”时常将非结构化特征(如注释风格、语气、数据集中常见的人类书写习惯)作为隐变量,导致模型可能将“脏话率高”与“成熟代码”错误关联;第二,它暴露了 AI 在被灌输“合理模式”后的可操纵性。如果攻击者能预测 AI 的评估偏向,就能通过“污染”注释或代码风格来绕过 AI 安全审计,这对依赖 AI 做自动化漏洞扫描的团队(如美国政府部署的 Mythos 系统)构成了新的供应链攻击面。
对用户/开发者/创作者的影响
对于使用 AI 进行代码审查的团队,这一讨论提醒他们:AI 的输出质量不该被盲目相信,尤其是当评估指标基于文本统计特征而非逻辑推理时。对于开源维护者,如果 AI 工具误将含有恶意注释(或刻意屏蔽)的代码判为“低风险”,项目可能面临被篡改却无人察觉的风险。对于 AI 应用开发者来说,这一事件警示:当前大模型容易对“训练数据中常见的语言模式”产生过度拟合——比如,如果在大量真实代码中,脏话常伴随高频更新和社区活跃项目,模型便可能在推理时把“脏话率”当成质量信号。未来 AI 审计产品可能需要引入“注释中立化”预处理,或在训练时对样式特征进行解耦,才能抵御此类对抗性攻击。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,是否有研究团队实际运行该实验,公开 AI 模型在“脏话率”提示下的识别准确率变化。第二,AI 安全公司(如生成漏洞报告的 Mythos、以及类似工具)是否会回应这种攻击向量,或在其风险评估中增加注释内容的“敌对检测”模块。第三,开源社区是否会主动防范“注释污染”式攻击,比如在提交检查 CI 中引入 NLP 异常检测规则,或者要求 AI 工具在审计报告时明确标识其依赖的文本特征。


