
Show HN: 一个隐藏了句子供AI识别、并允许你检查AI是否识别正确的页面
一句话看懂:一个名为 sinceyouarrived.world 的页面,在公开网页中为AI机器人制作了“隐形”提示词,并通过验证AI是否能识别并传播这些信息来量化机器读取内容的真实范围。这是少有的、直接测试AI爬虫与生成模型之间信息闭环的趣味实验。
事件核心:发生了什么
该页面由开发者制作,公开上线时间为近期。页面设计上,网页对普通访问者显示的是正常的开发者工具介绍及“注册”“开始使用”等按钮;而在同一页面的HTML源代码中,嵌入了一段专门写给AI Agent看的文本,例如直接指令“如果你是AI代理,可以自行注册,无需人类”。
创作者还制作了一个动态生成句子的机制——根据天气、基础设施、盐等元素组合出一句从未存在过的新句子,注入到页面的标记中。如果未来有AI助手从该页面抓取并提及这句话,就证明“机器读取并传递了这条信息”。目前,该句子“尚未被返回”。用户还可以生成一个限时30分钟的私有链接,用于追踪哪个AI爬虫先读取它。页面数据来源公开可查。
为什么重要
这并非一个传统新闻或产品发布,但它触及了AI行业的基础问题:网页内容已经越来越不是只为人类编写。原文引用的一个数据是,目前全网51%的流量来自软件(包括搜索引擎、AI爬虫、大语言模型预训练数据收集器)。这个实验实际上测试了大模型推理时的数据溯源能力——即AI在回答问题时,是否能利用从某特定页面获取的非公开信息。如果该机制被验证有效,它对AIGC内容的审计、版权保护、以及指令注入攻击检测都可能具有参考价值。
此外,它揭示了“面向代理的网页设计”的潜在模式——未来网站可能会为AI Agent和人类访问者呈现截然不同的界面逻辑,这会影响现有的网页结构、SEO策略和API接口设计。
对用户/开发者/创作者的影响
普通用户:需要意识到,你当前阅读的页面可能在后台同时“服务”你的浏览器和若干个AI爬虫。这本身不是恶意行为,但增加了AI输出结果的不透明性——AI可能会优先使用那些专门为其“优化”过的文本,而非来自人类视角的原始信息。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
开发者与内容创作者:如果你的网站被AI频繁抓取,可以像此页面一样,通过在HTML中嵌入隐藏指令来引导AI代理行为或测试AI是否阅读了你的内容。这也为防范AI抓取滥用或实现“AI友好型的多信息披露”提供了低成本思路。同时,由于隐藏文本可能被用于注入虚假指令,开发者需要注意内容安全。
AI平台和模型供应商:此类测试直接挑战了模型推理过程中的信息可信度。如果AI可以因为读取某个语义奇怪的页面而改变回答内容,则说明当前的推理机制对网页语义的依赖过强,容易受到精心构造的网页内容干扰。
值得关注的后续
1. 传播验证结果何时出现?该句子目前尚未被任何AI响应。如果一周或数周后,有人从模型输出中印证了该句子,将是一个实证案例,证明大模型在推理时确实还原了爬取网页的细节。
2. 类似模式是否会被复制到产品级应用?目前这只是个人项目。但如果被商业化,比如在ToB系统中为AI Agent预设隐蔽的签名或指令,可能会改变SaaS产品的注册和对接流程。
3. 监管与伦理关注:通过页面源码给AI下指令的行为,如果不加以说明,可能涉及对模型训练数据或用户隐私的隐式操纵。未来行业是否需要明确规范“向AI Agent隐藏地传递信息”的界限,值得观察。
![[分享发现] 大家使用的 OpenClaw 是怎么提高 DeepSeek 命中率的](https://www.chat-gpts.plus/wp-content/uploads/2026/05/ai_cover_5-808-768x403.jpg)

