
一句话看懂:AI 公司 SubQ 发布了其新一代长上下文模型 SubQ 1.1 Small,通过自研的次二次稀疏注意力(SSA)架构,在 12M token 上下文下实现了近乎完美的检索能力,并将计算成本降低了近 1000 倍。这直接挑战了过去因注意力机制二次复杂度而受限的“长上下文推理”痛点。
事件核心:发生了什么
SubQ 于 2026 年 6 月 16 日公布了 SubQ 1.1 Small 的技术报告及模型卡。该模型是 SubQ 的第二代迭代,采用了名为 Subquadratic Sparse Attention(SSA)的架构,核心设计是用线性复杂度替代传统 Transformer 模型中随上下文长度平方增长的注意力计算。
关键数据包括:在 1M token 上下文下,SubQ 1.1 Small 所需的计算量仅为密集注意力机制的 1/64.5,且单层注意力运行速度比 FlashAttention-2 快 56 倍。在“大海捞针”测试中,该模型在 1M 到 12M token 长度上均维持了近乎 100% 的检索准确率,在 128K token 的 RULER 多任务测试中也达到了 99.12%。目前该模型正在与部分设计伙伴内部部署,后续计划发布从 2M 到 12M token 的更大参数规模模型。
为什么重要
传统大模型在处理长文档、完整代码库或多份合同这类“完整工件”时,受限于注意力的二次计算复杂度,通常需要依赖分块检索、代理脚手架等变通方案。SubQ 1.1 Small 的 SSA 架构本质上是解决了这一架构性瓶颈,使模型可以直接对完整大容量上下文进行推理,而无需额外工程。这向行业展示了一条不同于 DeepSeek 稀疏注意力或循环架构的、更激进的效率提升路径。如果 SSA 在大规模场景下保持稳定,它可能显著改变长上下文模型的训练和推理成本结构,迫使其他厂商重新评估长上下文场景下的性价比。
对用户/开发者/创作者的影响
对于正在开发企业级 AI 应用的开发者来说,SubQ 1.1 Small 的出现意味着:处理超长上下文(如分析数万行代码、多部法规文档、长期对话历史)可能不再需要复杂的 RAG(检索增强生成)管线。模型自身就能直接在完整上下文中定位和推理。但是,由于模型目前仅面向少数设计伙伴开放,且计划在今年晚些时候才部署更广泛的产品线,普通用户和 API 开发者暂时无法直接使用。企业采购者可以开始关注 SubQ 的开源方向或后续 API 定价,它的推理成本相比现有方案可能具有数量级优势。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,SSA 架构是否能无缝扩展到更大规模的模型(如 70B 或更高参数级别)并保持效率优势,目前技术报告仅展示了小参数量级的结果。第二,尽管检索能力出色,SubQ 1.1 Small 在通用知识推理(GPQA 85.4%)和编程能力(LiveCodeBench 89.7%)上虽接近前沿,但并未全面超越对手,其对于复合型复杂推理任务的均衡表现需要更多第三方测试。第三,当前信息显示它是一个修改自开源权重的二次训练模型,这意味着其底层基础能力上限可能受限于起始模型的选择。用户应关注后续完整产品发布后的独立评测及定价策略,再判断是否迁移现有工作流。
来源:subq.ai


