GPT 和克劳德未能通过桥水基金的财务测试,因为正确答案从未公开

全球顶级对冲基金桥水与人工智能公司 Thinking Machines Lab 发现,通过微调开源模型 Qwen3-235B,他们构建的金融文档分析模型准确率达到 84.7%,而 GPT 和 Claude 等最强商业模型仅约 78%。差距的核心原因不是模型能力不足,而是这些问题的正确答案——桥水投资专家的判断…

GPT 和克劳德未能通过桥水基金的财务测试,因为正确答案从未公开

一句话看懂:全球顶级对冲基金桥水与人工智能公司 Thinking Machines Lab 发现,通过微调开源模型 Qwen3-235B,他们构建的金融文档分析模型准确率达到 84.7%,而 GPT 和 Claude 等最强商业模型仅约 78%。差距的核心原因不是模型能力不足,而是这些问题的正确答案——桥水投资专家的判断——从未出现在公开训练数据中。

事件核心:发生了什么

根据桥水旗下 AIA Labs 与 Thinking Machines Lab(由前 OpenAI CTO Mira Murati 创立)联合发布的报告,他们设计了一套模拟投资者日常工作的六项任务,例如判断一篇金融文章是否与高管相关、中央银行文件是否预示利率走向。测试发现,包括 Gemini、Claude 和 GPT 在内的大模型在基础提示下准确率仅有约 50%。即便是专家撰写的详细指令搭配三级评分系统,准确率也仅提升至中 70%,未达到可投入使用的 80%门槛。

研究团队转而采用微调路径,将桥水投资者对文档的判断作为内部专有数据,用来重新训练开源模型 Qwen3-235B。微调后的模型准确率达到 84.7%,运营成本仅为最强商业模型的十四分之一。值得注意的是,研究团队为标注数据设计了一个巧妙的工作流:先让廉价外包承包商给出初始标签,然后用模型复检,只有模型与原始标签不一致的记录才交由投资专家修正,从而大幅降低了昂贵专家的人工成本。

为什么重要

这一发现直接挑战了“大模型已经吞噬互联网所有公开数据”的假设。事实表明,大量高价值的判断能力存在于企业内部,而顶级实验室如 OpenAI 并未取得这些数据。对于金融、法律、医疗等依赖专业判断的行业,这意味着一家企业完全可以用自己的知识构建比 GPT 或 Claude 更精准、成本更低的 AI 解决方案,且无需将敏感数据交给大模型提供商。

更关键的是,这种做法避免了“数据使用即竞争风险”——如果一家基金原始提交全部财务分析文档给 OpenAI,它可能间接帮助训练出与自身竞争的产品。通过在 Tinker 平台上微调开源模型,企业保留了模型权重、数据和算力控制权,形成了数据闭环的竞争优势。

对用户/开发者/创作者的影响

企业采购决策者:采购大模型服务时不应只看模型基准测试排名。对于需要领域特定判断的任务,微调自有开源模型可能性价比更高,且能规避数据外泄风险。桥水案例显示,即便是 235B 参数的模型,配合内部专家知识也能超越 500B+ 参数的前沿模型。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

AI 开发者与创业公司:这是“微调 + 专有数据”商业模式的强力验证。Thinking Machines Lab 的 Tinker 平台提供了从数据标注、微调到部署的完整工具链,开发者可以参照这一思路为垂直行业(如医疗、法律、审计)构建定制化 AI 助手,不必依赖昂贵且黑箱的第三方 API。

内容创作者:对于需要分析大量专业内容(如财报、研报、监管文件)的从业者,这类微调模型的价值在于可以提供一致、可核验的判断逻辑,而非通用的“相关性”判断。目前公开信息显示,该模型仅面向企业客户,尚未对个人用户开放。

值得关注的后续

1. 产品落地与生态扩展:桥水是否会将该模型整合到内部投资系统中?Thinking Machines Lab 是否会向其他金融机构开放 Tinker 平台的微调服务?目前公开信息显示,双方均未公布商业化时间表。

2. 开源模型的竞争效应:Qwen3-235B 微调后优于 GPT 和 Claude,会否刺激更多企业放弃闭源 API,转向基于 Qwen、Llama 等开源模型的私有化部署?大模型 API 提供商可能被迫调降价格或开放更多定制能力。

3. 数据标注方法的普及:研究中使用“先外包后校验”的高效标注流程有望被更多领域借鉴。如果这套流程被产品化,可能大幅降低企业构建专有 AI 模型的门槛,从“找高质量标注数据”变成“高效利用少量专家时间”。

来源:The Decoder AI News

celebrityanime
celebrityanime
文章: 11290

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注