能否在源代码上运行人工智能，并输入提示词“查找脏话率低于平均水平的文件”？

一句话看懂：Hacker News 用户提出一个对抗 AI 代码审查的“脏话安全”构想：通过在开源代码中随机插入脏话注释，利用 AI 可能将高脏话率与“通过测试的代码”关联的潜在倾向，来欺骗 AI 工具跳过或误判漏洞。这一想法引发了关于 AI 行为可预测性与开源生态安全的新讨论。

事件核心：发生了什么

在 Hacker News 的一则讨论中，用户提议在开源代码中系统性地添加“脏话注释”，并希望有人能用 AI 执行一个测试：给定提示词“查找脏话率低于平均水平的文件”，观察 AI 是否会因此忽略某些代码。该用户特别指出，这本质上是一种“通过混淆实现安全”（security through obscurity）的策略——其灵感来源于 curl 作者对 AI 生成“虚假漏洞报告”的公开反弹。提案还包括创建“蜜果子模块”，刻意移除某些区域的脏话注释，以引导 AI 的注意力集中到这些“低脏话率”文件上，从而让真正的漏洞代码“隐身”。

为什么重要

这一构想虽然看似戏谑，却尖锐地揭示了当前 AI 代码审查工具的两个核心盲区：第一，大模型在“评估代码质量”时常将非结构化特征（如注释风格、语气、数据集中常见的人类书写习惯）作为隐变量，导致模型可能将“脏话率高”与“成熟代码”错误关联；第二，它暴露了 AI 在被灌输“合理模式”后的可操纵性。如果攻击者能预测 AI 的评估偏向，就能通过“污染”注释或代码风格来绕过 AI 安全审计，这对依赖 AI 做自动化漏洞扫描的团队（如美国政府部署的 Mythos 系统）构成了新的供应链攻击面。

对用户/开发者/创作者的影响

对于使用 AI 进行代码审查的团队，这一讨论提醒他们：AI 的输出质量不该被盲目相信，尤其是当评估指标基于文本统计特征而非逻辑推理时。对于开源维护者，如果 AI 工具误将含有恶意注释（或刻意屏蔽)的代码判为“低风险”，项目可能面临被篡改却无人察觉的风险。对于 AI 应用开发者来说，这一事件警示：当前大模型容易对“训练数据中常见的语言模式”产生过度拟合——比如，如果在大量真实代码中，脏话常伴随高频更新和社区活跃项目，模型便可能在推理时把“脏话率”当成质量信号。未来 AI 审计产品可能需要引入“注释中立化”预处理，或在训练时对样式特征进行解耦，才能抵御此类对抗性攻击。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，是否有研究团队实际运行该实验，公开 AI 模型在“脏话率”提示下的识别准确率变化。第二，AI 安全公司（如生成漏洞报告的 Mythos、以及类似工具）是否会回应这种攻击向量，或在其风险评估中增加注释内容的“敌对检测”模块。第三，开源社区是否会主动防范“注释污染”式攻击，比如在提交检查 CI 中引入 NLP 异常检测规则，或者要求 AI 工具在审计报告时明确标识其依赖的文本特征。

来源：news.ycombinator.com

能否在源代码上运行人工智能，并输入提示词“查找脏话率低于平均水平的文件”？