OpenAI 正式发布 GPT-5.5 Instant,全面提升模型性能

OpenAI 正式发布 GPT-5.5 Instant,全面提升模型性能

GPT-5.5 Instant 发布:告别“幻觉”与“废话”,OpenAI 一次补齐短板

当地时间5月6日,OpenAI 正式发布 GPT-5.5 Instant 模型,并将其设为 ChatGPT 的默认版本,全面取代此前的 GPT-5.3 Instant。 这一更新看似只是“即时版”的迭代,但性能提升幅度颇大。对于每天承载数十亿次用户访问的主力模型而言,这次升级专注于解决用户长期抱怨的两个核心痛点:准确性不足和回答过于啰嗦。

砍掉52.5%的“幻觉”,数学成绩飙升

大模型“一本正经地胡说八道”是用户最头疼的问题,GPT-5.5 Instant 试图正面解决这一顽疾。官方测试数据显示,在医学、法律、金融等高门槛领域,新模型的“幻觉率”大幅降低了 52.5%。特别是在处理用户此前标记的逻辑错误时,其纠正率提升了近 40%

在学术能力上,该模型也交出了亮眼成绩单。它在 AIME2025 数学测试中拿下了 81.2 分,远超前代的 65.4 分。在 GPQA 博士级科学测试、多模态推理和科学图表理解等维度,新模型同样实现了显著提升。OpenAI 展示的一个代数案例显示,新模型不再机械地判定结论对错,而是能精准指出用户解题步骤中的具体计算错误,这体现了从“答案正确”向“过程理解”的转变。

砍掉三分之一的废话,更像“人话”

除了智力层面的升级,GPT-5.5 Instant 的“性格”也变了。过去,ChatGPT 生成的回答往往格式堆砌、大量使用表情符号,被用户吐槽“不说人话”。此次更新后,新模型的回答长度和行数减少了约 30%,语感更贴近真实的朋友对话,而非冰冷的产品手册。

对于付费用户,新模型还强化了长期记忆与跨平台数据整合能力。它可以根据历史对话和关联的 Gmail 邮件提供更个性化的建议。例如,推荐餐厅时不会再泛泛罗列热门地点,而是基于你过往的口味偏好和常去位置进行精准匹配。这意味着,OpenAI 正在从通用对话引擎,转向提供“感知个体差异”的服务。

一次务实的“查漏补缺”

相较于此前震撼业界的大版本迭代,GPT-5.5 Instant 更像是一次精准的“查漏补缺”。它没有堆砌全新的、尚不成熟的能力,而是集中资源将“准确性”和“简洁性”这两个影响用户体验的基础指标打磨到极致。这背后反映出大模型竞争已进入深水区:在基础能力没有代际颠覆的当下,谁能更好地解决日常使用中的微观痛点,谁就能巩固用户粘性。

有趣的是,为庆祝发布,OpenAI 计划在5月5日下午5:55举办一场特殊派对——从时间点到活动流程,几乎全部由 GPT-5.5 自己策划。这或许是对其“更像人类”的一次幽默注脚。

celebrityanime
celebrityanime
文章: 869

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注