标签: API

MTG Bench:测试 LLM 玩万智牌的能力

MTG Bench:测试 LLM 玩万智牌的能力

开发者构建了 MTG Bench——一个评估大语言模型(LLM)在复杂卡牌游戏《万智牌》中能否做出合法且合理决策的基准测试。测试暴露出当前顶尖模型在规则理解、策略判断和长上下文处理上的明显短板,引发对LLM真实逻辑推理能力的重新审视。

新的 DSL 如何在法学硕士时代生存

新的 DSL 如何在法学硕士时代生存

一篇来自 Hacker News 的热门讨论认为,在大语言模型(LLM)时代,传统的领域特定语言(DSL)正面临生存危机——因为 AI 已经能直接理解自然语言指令并生成可执行的二进制程序,DSL 作为人类与计算机之间的“中间语言”价值正在被压缩。