斯坦福大学法学院研究中人工智能表现优于法学教授

一句话看懂：一项斯坦福大学法学院的研究声称，AI（尤其是Google模型）在法律问答上表现优于法学教授，但该研究因样本量小、存在明显偏差而遭到统计学和AI社区的激烈质疑。这件事提醒我们，在评估AI能力时，方法论的严谨性远比标题党的结论更重要。

事件核心：发生了什么

这项研究由斯坦福大学法学院完成，研究者让法学教授和LLM（大语言模型）回答法律问题，然后由16位教授作为评委，进行了2918次盲审比较（中位数每人200次）。研究者“校准了AI回答的长度和结构，使其匹配人类回答”，结果发现AI的答案更受青睐。然而，HackerNews上的讨论指出多个红牌：首先，16位教授的样本量太小，且个体差异极大（例如“第16位教授表现极差”），导致研究几乎没有统计效力；其次，主要结果只展示了Google模型的表现，其他模型（如GPT、Claude）的数据却未列出，被普遍批评为存在明显偏见。

为什么重要

这一争议并非孤例。它揭示了当前AI能力测试中的常见问题：在不可靠的实验设计上，得出吸引眼球的结论。对于AI行业而言，这会产生两种后果：一是公众和投资者可能被误导，高估AI在专业领域的替代能力；二是模型提供商之间可能利用这类“有味道”的研究进行营销。更深层的是，如评论者所说，AI在“高风险环境”（如法律、医疗、金融）中的错误可能带来灾难性后果，因此评估方法论必须经得起推敲。此外，有观点指出，如果人类刻意校准AI的输出格式，实际上可能掩盖了AI的幻觉和错误，这会让测试结果失真。

对用户/开发者/创作者的影响

对开发者而言，不应仅凭学校或机构的声誉就盲目信任AI评测结果。在构建面向法律、金融等敏感领域的AI应用时，必须自行进行严格的A/B测试和错误率验证，尤其要关注“校准”环节是否屏蔽了AI的固有缺陷。对使用AI进行内容创作的创作者来说，这项研究也提示：AI可能在某些结构化和格式化任务上表现良好，但在需要深入推理、事实核查的长尾场景中，表现可能并不稳定。对普通用户而言，不要轻易将AI输出的法律建议等同于人类专家的判断。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，该研究的原始数据和完整模型对比（包括Claude、GPT等模型）是否会公开——如果拒绝公开，其可信度将进一步下降；第二，类似研究将如何影响法学院或法律行业实际使用AI的决策，例如律师事务所是否会基于此类结果购买AI工具；第三，批评者指出，如果这类方法论的漏洞得不到修正，AI在严肃专业领域的应用落地可能因信任危机而推迟。正如一位评论者所担忧的：“如果AI可以接替大多数知识工作者，那对社会未必是净收益。”到2028年，情况可能会更加分化。

来源：hackernews

斯坦福大学法学院研究中人工智能表现优于法学教授