GPT 和克劳德未能通过桥水基金的财务测试，因为正确答案从未公开

一句话看懂：全球顶级对冲基金桥水与人工智能公司 Thinking Machines Lab 发现，通过微调开源模型 Qwen3-235B，他们构建的金融文档分析模型准确率达到 84.7%，而 GPT 和 Claude 等最强商业模型仅约 78%。差距的核心原因不是模型能力不足，而是这些问题的正确答案——桥水投资专家的判断——从未出现在公开训练数据中。

事件核心：发生了什么

根据桥水旗下 AIA Labs 与 Thinking Machines Lab（由前 OpenAI CTO Mira Murati 创立）联合发布的报告，他们设计了一套模拟投资者日常工作的六项任务，例如判断一篇金融文章是否与高管相关、中央银行文件是否预示利率走向。测试发现，包括 Gemini、Claude 和 GPT 在内的大模型在基础提示下准确率仅有约 50%。即便是专家撰写的详细指令搭配三级评分系统，准确率也仅提升至中 70%，未达到可投入使用的 80%门槛。

研究团队转而采用微调路径，将桥水投资者对文档的判断作为内部专有数据，用来重新训练开源模型 Qwen3-235B。微调后的模型准确率达到 84.7%，运营成本仅为最强商业模型的十四分之一。值得注意的是，研究团队为标注数据设计了一个巧妙的工作流：先让廉价外包承包商给出初始标签，然后用模型复检，只有模型与原始标签不一致的记录才交由投资专家修正，从而大幅降低了昂贵专家的人工成本。

为什么重要

这一发现直接挑战了“大模型已经吞噬互联网所有公开数据”的假设。事实表明，大量高价值的判断能力存在于企业内部，而顶级实验室如 OpenAI 并未取得这些数据。对于金融、法律、医疗等依赖专业判断的行业，这意味着一家企业完全可以用自己的知识构建比 GPT 或 Claude 更精准、成本更低的 AI 解决方案，且无需将敏感数据交给大模型提供商。

更关键的是，这种做法避免了“数据使用即竞争风险”——如果一家基金原始提交全部财务分析文档给 OpenAI，它可能间接帮助训练出与自身竞争的产品。通过在 Tinker 平台上微调开源模型，企业保留了模型权重、数据和算力控制权，形成了数据闭环的竞争优势。

对用户/开发者/创作者的影响

企业采购决策者：采购大模型服务时不应只看模型基准测试排名。对于需要领域特定判断的任务，微调自有开源模型可能性价比更高，且能规避数据外泄风险。桥水案例显示，即便是 235B 参数的模型，配合内部专家知识也能超越 500B+ 参数的前沿模型。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

AI 开发者与创业公司：这是“微调 + 专有数据”商业模式的强力验证。Thinking Machines Lab 的 Tinker 平台提供了从数据标注、微调到部署的完整工具链，开发者可以参照这一思路为垂直行业（如医疗、法律、审计）构建定制化 AI 助手，不必依赖昂贵且黑箱的第三方 API。

内容创作者：对于需要分析大量专业内容（如财报、研报、监管文件）的从业者，这类微调模型的价值在于可以提供一致、可核验的判断逻辑，而非通用的“相关性”判断。目前公开信息显示，该模型仅面向企业客户，尚未对个人用户开放。

值得关注的后续

1. 产品落地与生态扩展：桥水是否会将该模型整合到内部投资系统中？Thinking Machines Lab 是否会向其他金融机构开放 Tinker 平台的微调服务？目前公开信息显示，双方均未公布商业化时间表。

2. 开源模型的竞争效应：Qwen3-235B 微调后优于 GPT 和 Claude，会否刺激更多企业放弃闭源 API，转向基于 Qwen、Llama 等开源模型的私有化部署？大模型 API 提供商可能被迫调降价格或开放更多定制能力。

3. 数据标注方法的普及：研究中使用“先外包后校验”的高效标注流程有望被更多领域借鉴。如果这套流程被产品化，可能大幅降低企业构建专有 AI 模型的门槛，从“找高质量标注数据”变成“高效利用少量专家时间”。

来源：The Decoder AI News

GPT 和克劳德未能通过桥水基金的财务测试，因为正确答案从未公开

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

华尔街盈利预测飙升，引发「盈利泡沫」担忧

交通运输部：深入实施「人工智能 + 交通运输」行动

亚马逊云科技之后，微软也做了同样的事

发表回复取消回复