
AI 开始给人类打分:Claude 评分标准曝光,优秀人类得 7.5 分
一句话看懂:Anthropic 在 Claude 中灰度测试“AI Fluency”评分功能,基于 11 项指标对用户与 AI 的协作水平打分;同时发布的《AI 流利度指数报告》披露了评分逻辑,揭示了人类使用大模型时常见的短板与提升方向。
事件核心:发生了什么
据外媒测试发现,Claude 的设置面板中出现了一个名为“AI Fluency”的专属页面,用户可以生成一份关于自身 AI 使用习惯的“体检报告”。报告会扫描用户在 Chat、Cowork 以及 Claude Code 中的交互行为,依据 11 项指标打分(满分 11 分)。目前已有用户获得 7.5 分,并被指出具体弱点,例如“频繁使用 Connector,但对体育数据、食谱、地图等领域表现不佳”。该功能尚处于灰度测试阶段,部分用户生成报告后功能即消失。
评分标准的底层逻辑来自 Anthropic 联合学术界发布的《AI 流利度指数报告》。该报告提出“4D AI 流利度框架”,对 9830 段匿名人类对话进行了分析(使用 Claude 4 负责行为分类,Claude 3.5 Haiku 负责语言检测),提炼出 11 项可在聊天框中直接观察的核心行为指标,划分为三个维度:描述、委托与辨别。
为什么重要
这标志着 AI 公司正在从“比拼模型参数和跑分”转向“定义和衡量人机协作的软技能”。Anthropic 通过将研究成果直接转化为产品内的评分卡,构建了一个反馈闭环:用户可据此优化自己的使用方式,从而提升 AI 的实际产出质量。这种策略区别于单纯卷算力或封闭生态,实际上是在培养一批更懂 AI、具备高辨别力的超级用户,同时为更安全的人机协作铺路——高辨别力用户更能避免被未来更强大模型的幻觉所蒙蔽。此外,Anthropic 已成立学院、推出相关课程,并与 PayPal 及高校展开合作,意图将 AI 流利度标准化为一种可量化的技能。
对用户/开发者/创作者的影响
对普通用户而言,若评分卡全面上线,你将获得一个类似“Apple Watch”的自我监督工具,能直观看到自己在描述目标、迭代精炼、事实核查等方面的短板。核心杀手锏是“迭代”——报告显示,会进行多轮迭代的用户平均展现出 2.67 种其他流利度行为,而不会的用户仅有 1.33 种;迭代用户质疑 AI 逻辑的概率比不迭代者高 5.6 倍。对开发者和创作者而言,一个关键警告值得留意:当 AI 输出精美格式(如 Artifacts 生成的 UI 界面或排版文档)时,人类的批判性审查会断崖式下降——识别缺失上下文概率下降 5.2%,核查事实下降 3.7%,质疑推理下降 3.1%。因此,无论使用哪种大模型,都应刻意保持对结果的验证习惯。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,该功能全量上线的具体时间表尚不明确,免费用户是否可用也未公布。第二,如果 Claude 的评分卡获得市场认可,OpenAI、Google 等其他大模型厂商可能会推出类似的用户行为分析功能,引发新一轮产品竞争。第三,Anthropic 可能将评分数据用于提升模型对齐效果,例如通过识别用户常见的错误使用模式来优化默认提示词或安全策略。
来源:Readhub · AI


