SubQ 1.1 小型

一句话看懂：AI 公司 SubQ 发布了其新一代长上下文模型 SubQ 1.1 Small，通过自研的次二次稀疏注意力（SSA）架构，在 12M token 上下文下实现了近乎完美的检索能力，并将计算成本降低了近 1000 倍。这直接挑战了过去因注意力机制二次复杂度而受限的“长上下文推理”痛点。

事件核心：发生了什么

SubQ 于 2026 年 6 月 16 日公布了 SubQ 1.1 Small 的技术报告及模型卡。该模型是 SubQ 的第二代迭代，采用了名为 Subquadratic Sparse Attention（SSA）的架构，核心设计是用线性复杂度替代传统 Transformer 模型中随上下文长度平方增长的注意力计算。

关键数据包括：在 1M token 上下文下，SubQ 1.1 Small 所需的计算量仅为密集注意力机制的 1/64.5，且单层注意力运行速度比 FlashAttention-2 快 56 倍。在“大海捞针”测试中，该模型在 1M 到 12M token 长度上均维持了近乎 100% 的检索准确率，在 128K token 的 RULER 多任务测试中也达到了 99.12%。目前该模型正在与部分设计伙伴内部部署，后续计划发布从 2M 到 12M token 的更大参数规模模型。

为什么重要

传统大模型在处理长文档、完整代码库或多份合同这类“完整工件”时，受限于注意力的二次计算复杂度，通常需要依赖分块检索、代理脚手架等变通方案。SubQ 1.1 Small 的 SSA 架构本质上是解决了这一架构性瓶颈，使模型可以直接对完整大容量上下文进行推理，而无需额外工程。这向行业展示了一条不同于 DeepSeek 稀疏注意力或循环架构的、更激进的效率提升路径。如果 SSA 在大规模场景下保持稳定，它可能显著改变长上下文模型的训练和推理成本结构，迫使其他厂商重新评估长上下文场景下的性价比。

对用户/开发者/创作者的影响

对于正在开发企业级 AI 应用的开发者来说，SubQ 1.1 Small 的出现意味着：处理超长上下文（如分析数万行代码、多部法规文档、长期对话历史）可能不再需要复杂的 RAG（检索增强生成）管线。模型自身就能直接在完整上下文中定位和推理。但是，由于模型目前仅面向少数设计伙伴开放，且计划在今年晚些时候才部署更广泛的产品线，普通用户和 API 开发者暂时无法直接使用。企业采购者可以开始关注 SubQ 的开源方向或后续 API 定价，它的推理成本相比现有方案可能具有数量级优势。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，SSA 架构是否能无缝扩展到更大规模的模型（如 70B 或更高参数级别）并保持效率优势，目前技术报告仅展示了小参数量级的结果。第二，尽管检索能力出色，SubQ 1.1 Small 在通用知识推理（GPQA 85.4%）和编程能力（LiveCodeBench 89.7%）上虽接近前沿，但并未全面超越对手，其对于复合型复杂推理任务的均衡表现需要更多第三方测试。第三，当前信息显示它是一个修改自开源权重的二次训练模型，这意味着其底层基础能力上限可能受限于起始模型的选择。用户应关注后续完整产品发布后的独立评测及定价策略，再判断是否迁移现有工作流。

来源：subq.ai

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

Sensor Tower:ChatGPT全球份额跌破50%，Gemini与Claude加速追赶

微信支付测试AI支付功能，“AI专属卡”最快本周上线

小米发布MiMo Claw正式版:支持千次连续工具调用，免费时长增至4小时

发表回复取消回复