一项新研究显示，AI 聊天机器人在 90% 的情况下都会错误地获取选举信息——其中包括 ChatGPT 的竞争对手

一句话看懂：Forum AI 旗下 NewsBench 项目的最新研究发现，当用户询问选举相关问题时，包括 ChatGPT、Gemini、Claude 和 Grok 在内的主流 AI 聊天机器人在 90% 的情况下会给出有重大缺陷的回答——包含事实错误、明显的党派倾向，或引用外国国有媒体的信息。这项研究再次证实，即使是最先进的对话式 AI 在高风险的信息准确性场景中仍不可靠。

事件核心：发生了什么

NewsBench 项目专门评估 AI 系统如何处理来自新闻来源的客观信息。研究发现，这些聊天机器人并非因为推理能力不足而犯错，核心问题出在“信息检索”环节：超过 70% 的错误源于系统未能找到或正确引用可靠的新闻来源。即使模型成功检索到正确信息，也往往能给出准确回答，但“持续找到正确信息”仍是最大挑战。换句话说，AI 在回答问题前就已经选错了参考材料。

研究报告进一步指出，当问题中嵌入细微的误导性假设或模棱两可的措辞时，模型的准确性显著下降。这种情形与现实世界用户在社交媒体或搜索引擎上提问的方式高度类似，使得问题更加普遍。

值得警惕的是，AI 聊天机器人以权威、自信的口吻呈现错误信息。即便内容不准确，其流畅的表述与引用格式也会让用户倾向于信任，这与早年互联网上零散的误导信息有本质不同——它看起来更像专业知识。

为什么重要

这项研究直击 AI 行业当前最尴尬的矛盾：AI 公司纷纷将聊天机器人定位为信息入口产品，但在关乎民主进程的选举信息领域，技术尚未准备好。用户已经开始将聊天机器人视为基础设施而非实验性软件，但实际可靠性严重不足。

研究表明，靠增加模型参数或提升推理能力无法根治此类问题。根本症结在于检索层——当前的 AI 产品缺少透明、可信且能稳定指向高质量新闻来源的底层架构。这解释了为什么 OpenAI、Google、Anthropic 等公司近一年密集与新闻机构签署内容授权协议：他们需要通过结构化数据来弥补检索能力的短板。

从政策与监管角度看，欧洲已在推动更严格的透明度要求，其他地区进展较慢。但在选举周期不等人、AI 使用率持续攀升的背景下，技术与治理之间的时间差正在制造风险。研究结果也向投资者释放信号：单纯追求大模型性能提升可能无法解决实际应用中的来源质量顽疾。

对用户/开发者/创作者的影响

对普通用户：不要将聊天机器人作为选举、投票或政治信息的唯一来源。研究强调即使是一致性很高的回答，也可能包含事实偏差。用户务必交叉验证具体信息和引用来源。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对开发者与AI产品经理：NewsBench 的发现提示，产品设计应侧重检索与引用层的质量控制，而非仅优化生成逻辑。引入可信新闻源 API、实施引用来源预检、对不确定信息如实注明，都比让模型直接作答更安全。此外，需要建立针对误导性提问的检测与过滤机制。

对内容创作者与出版方：与 AI 公司签订数据授权协议不仅能带来商业模式收益，更成为影响模型输出引用质量的关键杠杆。创作者有责任确保自己生产的内容被准确索引，同时应警惕 AI 可能以“专业口吻”衍生错误引用。

值得关注的后续

1. 检索层产品机会：市场对高质量、可验证的新闻检索 API 或嵌入工具的需求将显著增长，这可能是 AI 基础设施中一个新生细分赛道。

2. 监管回应：该研究很可能被欧洲及其他地区监管机构引用，加速对 AI 选举内容处理的具体合规要求出台。

3. 竞品动作：OpenAI、Anthropic、Google 等公司可能会在未来数周内发布针对检索质量改进的更新或合作说明，以缓和公众疑虑。

来源：TechRadar

一项新研究显示，AI 聊天机器人在 90% 的情况下都会错误地获取选举信息——其中包括 ChatGPT 的竞争对手