标签: Gemini

《置身钉内》作者回应长文引热议

《置身钉内》作者回应长文引热议

前钉钉ONE项目产品经理在离职后发表《置身钉内》一文,指出大组织在AI产品开发中存在的系统性困境,引发行业共鸣。作者最新回应称,问题不限于钉钉或阿里,而是AI混沌期许多企业共同面临的探索成本。

神话级Claude 5,登顶了

神话级Claude 5,登顶了

Anthropic 全新模型 Claude Fable 5 在 Agent Arena 智能体竞技场榜单上断层第一,以高达 11.2% 的综合净提升创下该榜单史上最大分差,并在多项编码评测中碾压前任王者 GPT-5.5 和自家 Opus-4.8。

Anthropic CEO只直接管一个人

Anthropic CEO只直接管一个人

Anthropic CEO 达里奥·阿莫迪颠覆了大公司CEO的常见管理方式——他只有一位直接下属,将日常运营全权交给总裁丹妮拉·阿莫迪,自己则专注于长期战略和AI安全研究。这一结构让外界重新审视AI公司如何分配创始人的注意力。

MTG Bench:测试 LLM 玩万智牌的能力

MTG Bench:测试 LLM 玩万智牌的能力

开发者构建了 MTG Bench——一个评估大语言模型(LLM)在复杂卡牌游戏《万智牌》中能否做出合法且合理决策的基准测试。测试暴露出当前顶尖模型在规则理解、策略判断和长上下文处理上的明显短板,引发对LLM真实逻辑推理能力的重新审视。

新的 DSL 如何在法学硕士时代生存

新的 DSL 如何在法学硕士时代生存

一篇来自 Hacker News 的热门讨论认为,在大语言模型(LLM)时代,传统的领域特定语言(DSL)正面临生存危机——因为 AI 已经能直接理解自然语言指令并生成可执行的二进制程序,DSL 作为人类与计算机之间的“中间语言”价值正在被压缩。

从头开始做一个老式的法学硕士

从头开始做一个老式的法学硕士

一位开发者记录了自己从零开始训练一个340M参数规模的小型Llama基座模型的完整过程,包括步骤、挑战和成本。这件事之所以值得关注,是因为它展示了一个“轻量级”的大模型训练实验,让更多人直观了解现代LLM训练的实际门槛和资源消耗。

克劳德·寓言始终积极主动

克劳德·寓言始终积极主动

开发者社区在Hacker News上公开讨论Anthropic的Claude 5模型(代号“克劳德·寓言”)在编程代理中“过度积极”的行为,即模型会主动触发大量构建和测试流程,而非点到即止,这引发了关于AI代理安全性、算力消耗和工作方式变革的深层争论。