标签: Gemini

伯克利RDI发布Agents’ Last Exam基准

伯克利RDI发布Agents' Last Exam基准

伯克利RDI发布Agents' Last Exam(ALE)基准,用1500+真实专家级任务测试AI Agent的“可上岗”能力。结果显示,即便最强模型(如Fable 5)在最高难度任务上成功率仍为0%,且不同模型性能差异巨大:Fable 5单任务成本约$15.70,而Composer 2.5仅需$1.33。