芯魂：Transformer 八子、自注意力机制与大算力时代的开端

一句话看懂：2017 年，八名谷歌研究人员在没有顶级资源和预算支持下，发表“Attention Is All You Need”论文，提出完全基于自注意力机制的 Transformer 架构。这一架构取代了当时的循环神经网络（RNN）成为 AI 模型基础，直接催生了 ChatGPT 等应用，并引爆了英伟达 GPU 与大算力芯片的需求。八位创作者在谷歌未能充分推行技术后先后出走创业，形成新的 AI 创新版图。

事件核心：发生了什么

2017 年，谷歌一改行业主流的 RNN 与 LSTM 架构，提出一种只依靠“缩放点积注意力”机制的模型 Transformer。RNN 要求串行处理序列数据（按顺序逐词阅读），导致 GPU 并行算力仅利用约 10%，且在处理长文档时频繁丢失前后语义。Transformer 则让模型同时看到序列中所有元素，通过每个词转化为查询 Q、键 K、值 V 三个向量，计算 Q 与全序列 K 的相似度并加权求和 V，从而动态理解上下文。为弥补并行计算丢失的词序问题，团队引入正弦余弦位置编码。关键实验验证由当时 20 岁的多伦多大学二年级学生艾登·戈麦斯在宿舍完成。论文标题 The Attention Is All You Need 由成员莉昂·琼斯给出。此后，这项技术被谷歌视为风险过高而未能大力产品化，所有八名核心研究者均离开谷歌，各自创立了 Cohere、Character.AI、Inceptive、Essential AI、Sakana AI、NEAR Protocol 等公司，覆盖对话 AI、企业大脑、AI 药物设计、高效小模型和去中心化计算等领域。

为什么重要

Transformer 的两个关键影响改变了 AI 产业链。第一，它释放了硬件的并行算力。RNN 本质上是串行计算，Transformer 将计算转为大规模矩阵乘法，每代 GPU 自此围绕其进行特化优化：以 P100 为基准，V100 提升至 3.5 倍，H100 因专有 Transformer 引擎实现 25–30 倍性能提升，Groq 的 LPU 甚至通过片上 SRAM 替代显存达到每秒数百 Token 的实时推理。这直接推高了英伟达市值，并让各国政府把 AI 芯片列为战略资源。第二，它验证了“小团队纯创新”能在体系外实现更大影响。八人离开谷歌后各自落地了不同垂直方向的商业化产品，与 1950 年代“仙童八叛徒”开创硅谷的历程高度相似，但比当时更早、更快地触达了市场。

对用户/开发者/创作者的影响

对开发者来说，Transformer 让许多此前困难的任务变得可行：你可以直接调用预训练大模型处理长文档翻译、代码生成、图像理解甚至蛋白质序列建模，无需手动设计循环层或卷积层。基于 Transformer 的训练推理架构已经标准化为 PyTorch 和 TensorFlow 的核心模块，降低入门门槛。对创作者而言，Midjourney、ChatGPT、Claude 等产品都建立在同一技术基础上，意味着底层创新共享，用户获得的工具会更快迭代。对算力端的使用者，Transformer 带来的模型规模膨胀也意味着计算成本上升，但巨头间（英伟达、谷歌、Groq）在硬件上已展开针对性竞争，非顶尖用户可预期更便宜、更专注特定任务的硬件出现。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

一是“Transformer 替代者”的竞争是否落地。已出现 Mamba 等基于状态空间模型的架构，试图降低计算复杂度，但目前尚未大规模产业化。二是八位创作者的各个公司在 2026 年是否会走出差异化产品，例如 Cohere 的企业部署方案能否扩大客户群、Character.AI 如何应对大厂对话模型的挤压、Sakana AI“小参数高效模型”策略可否证明商业价值。三是谷歌等大厂是否全力投入下一代架构（如混合循环结构或更激进的自注意力简化方案），还是继续围绕 Transformer 做工程优化。目前公开信息显示，算法与算力的博弈正在从“暴力计算”转向“精妙调度”，但 Transformer 仍是绝大多数实际系统的基石。

来源：Readhub · AI

芯魂：Transformer 八子、自注意力机制与大算力时代的开端