视频生成作为多模态推理新范式 | CVPR 2026

复旦大学邱锡鹏团队(OpenMOSS)提出“Thinking with Video”新范式,让视频生成模型(如Sora-2)不仅能完成几何推理、归纳推理等视觉任务,还能通过“在视频中写解题过程”的方式解决数学推理等文本任务。该工作被CVPR 2026收录,数据和代码已开源。

复旦大学邱锡鹏团队(OpenMOSS)提出“Thinking with Video”新范式,让视频生成模型(如Sora-2)不仅能完成几何推理、归纳推理等视觉任务,还能通过“在视频中写解题过程”的方式解决数学推理等文本任务。该工作被CVPR 2026收录,数据和代码已开源。

阿里旗下千问AI眼镜在2026年1-5月拿下国内AI眼镜市场全渠道销量第一,起售价仅1997元,凭借低价策略与阿里生态Agent服务快速抢占市场。

方正证券地产行业研报将2024年国务院常务会议的地产政策表述,错误标注为“2026年6月7日最新会议部署”,暴露出分析师依赖AI工具抓取信息时未做人工核查的典型错误,也再度揭露了该机构长期存在的合规管理短板。

成立仅一年多的清华系公司光象科技,发布了工业级自进化具身智能机器人 Phi-Bot X1,并已拿下蔚来等车企订单。该机器人在连续 3 天、累计 21.5 小时的汽车产线上下料作业中实现零失误,从模型导入到真实部署仅需一周。这意味着具身智能从“能跑会跳”的展示阶段,正式进入了“能干活、创造价值”的工业化落地阶段…

AudioX-Turbo通过蒸馏技术将音频生成所需的推理步数从100步压缩到4步,10秒音频生成仅需0.24秒。团队同步开源了920万条带时间戳的“强指令”数据集,让模型能精确理解“先蝉鸣、后吉他”这类复杂指令。

90后清华博士黄冠创办的“极佳视界”,在三个月内连续完成三轮融资,累计金额达35亿元。投资人追捧的,是一条被称为“物理世界OpenAI”的技术路线——用世界模型驱动实体机器人,而非仅停留在屏幕里的数字AI。

Anthropic 原定于6月13日举办的 Claude Fable 5 开发者日,因监管禁令导致该模型无法使用,主办方临时改用 Opus 4.8 完成活动。Fable 5 在封禁前的最后数小时内,被开发者用于重写旧游戏、生成 3D 场景等任务,展示了远超此前大模型的代码与创作能力。

美团 LongCat 团队推出 WBench,这是首个专门评测“交互式视频世界模型”的系统性基准。它对 20 个前沿模型进行了多轮测试,结果发现:目前没有模型能兼顾所有能力,而最关键的“导航”能力与画质几乎无关,多轮交互后模型性能会显著下降。

本周AI行业动荡加剧:Anthropic旗舰模型Claude Fable 5因美国监管禁令上线4天即遭全球关停并启动退款;阿里紧急辟谣首席科学家周靖人离职传闻;智谱则在此时全量开放新模型GLM-5.2,强调前沿智能应开放可用。

微软将基于 Azure 的代理式 AI 平台 Microsoft Discovery 投入商用,核心目的是将自主 AI 代理团队引入科学研发流程。与此同时,该平台已直接帮助其新一代拓扑量子芯片 Majorana 2 实现 1000 倍可靠性提升,并将可扩展量子计算机的交付时间表缩短至 2029 年。