图灵测试 76 年后首现 AI 通过实证：GPT-4.5 以 73% 判定率超越真人，聊天 15 分钟难辨人机

一句话看懂：加州大学圣地亚哥分校的最新研究首次通过实证证明，OpenAI 的 GPT-4.5 模型在图灵测试中以 73% 的判定率被误认为人类，甚至超过真实人类被试。这一结果颠覆了图灵测试自 1950 年诞生以来对 AI 能否“伪造人性”的核心质疑，也为线上信任、AI 安全与伦理带来了紧迫的现实挑战。

事件核心：发生了什么

这项发表于《美国国家科学院院刊》的研究，由卡梅伦·琼斯与本·伯根领导，招募了近 500 名参与者担任“审讯者”，在 5 至 15 分钟的文本对话后判断对方是真人还是 AI。测试对象包括 GPT-4.5、LLaMa-3.1-405B、GPT-4o 以及 1960 年代的基线聊天机器人 ELIZA。

结果显示，在给定详细“人格”提示（如模仿特定人类角色、语气和易错性）的条件下，GPT-4.5 有 73% 被判定为人类，甚至高于真实人类被试的判定率；LLaMa-3.1-405B 为 56%，与真人无显著差异；而 GPT-4o 和 ELIZA 分别仅 21% 和 23%。若不给模型明确的“装人”指令，GPT-4.5 的误判率骤降至 36%，说明模型具备模仿人类的能力，但不会主动这样做。

为什么重要

这是图灵测试提出 76 年来，首次有大型语言模型通过严格对照实验、在统计上被证明“比真人更像人”。意义不仅在于技术里程碑，更在于颠覆了业界对 AI “智能”本质的理解：获胜的不是逻辑推理或知识储备，而是对人性弱点（语气、幽默、易错性）的精准模仿。研究合著者伯根指出，这迫使行业重新思考图灵测试衡量的究竟是什么——它正从“机器能否思考”演变为“机器能否像人一样表演”。

对于 AI 公司而言，这意味着大模型在社交伪装上的能力已经成熟，如何平衡产品的“拟人化”特性与防欺骗安全策略，将直接影响用户信任与监管合规。开源社区（如 LLaMa 系列）同样有能力达到类似效果，开放权重模型可能带来更广泛、更难以控制的滥用风险。

对用户/开发者/创作者的影响

普通用户：与线上陌生人的聊天中，无法再默认对方是真人。研究合作者琼斯警告，“人们应该对自己能确定对方是真人这件事降低信心”。个人隐私、诈骗防范和社交信任将面临前所未有的挑战。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

开发者与安全团队：需要更先进的“AI 检测”机制，而不仅仅是文本模式分析。目前公开信息显示，GPT-4.5 在 15 分钟对话中都能保持伪装，意味着现有的短文本验证手段（如简单的验证码或行为分析）可能失效。开发者应关注提示词工程对模型角色的影响，避免因默认指令不当而意外开启“欺骗模式”。

内容创作者与平台：当 AI 能完美模拟人类时，社区内容的水军、虚假评论、社交工程攻击的识别难度将指数级增加。平台可能需要依赖多模态信号（如 IP 历史、行为图谱）进行对抗。

值得关注的后续

1. OpenAI 的策略变化：GPT-4.5 的这项能力是意外泄露还是可控特性？OpenAI 是否会调整 API 的默认角色设置，或在安全层中内置“不伪装成人”的约束。

2. 监管与立法跟进：如果 AI 能在不知不觉中冒充真人，各国对 AI 披露义务的强制要求（如数字水印、声明标签）将更具现实紧迫性。欧盟 AI 法案等法规可能加速修订。

3. 竞品对比与开源风险：Meta 的 LLaMa-3.1 同样接近通过测试，开源模型的可复现能力意味着门槛更低。未来是否会出现专门针对“伪装”的对抗性训练，或导致模型之间的“信任军备竞赛”？

来源：IT之家 (ITHome)

图灵测试 76 年后首现 AI 通过实证：GPT-4.5 以 73% 判定率超越真人，聊天 15 分钟难辨人机