hexo-ai / sia

一个名为 SIA 的开源自改进 AI 框架在 GitHub 上发布,它通过“元-目标-反馈”三个智能体的循环,让 AI 系统能自主优化自身代码与权重,在 LawBench 和 GPU 内核优化等任务上取得了显著提升。

hexo-ai / sia

一句话看懂:一个名为 SIA 的开源自改进 AI 框架在 GitHub 上发布,它通过“元-目标-反馈”三个智能体的循环,让 AI 系统能自主优化自身代码与权重,在 LawBench 和 GPU 内核优化等任务上取得了显著提升。

事件核心:发生了什么

项目 hexo-ai/sia 在 GitHub 上开源,对应论文《SIA: Self Improving AI with Harness & Weight Updates》(Hebbar 等人,2026)。SIA 构建了一个自动化闭环:Meta-Agent 根据任务描述生成初始 Target Agent;Target Agent 执行任务并记录日志;Feedback/Improvement Agent 分析日志并提出改进方案,更新 Target Agent 的代码与权重。迭代持续进行,直到性能收敛。

论文公布了四项基准测试结果:在 LawBench 中文罪名预测中,SIA-W+H 达到 70.1% Top-1 准确率(此前最优为 45%);在 GPU Triton 内核优化任务上实现 91.9% 运行时缩短(14 倍加速);在单细胞 RNA 去噪任务上将误差(MSE norm)从 0.220 降至 0.289(原文数据存在矛盾,已保留素材原始表述);在 OpenAI MLE-Bench Hard 的 Kaggle 模拟竞赛中排名第一。项目同时提供了本地运行工具,内置 gpqa、lawbench 等四个自带任务,可通过 CLI 命令直接执行。

为什么重要

SIA 代表了一种新的 AI 系统优化范式——不再依赖人工调参或外部数据标注,而是由 AI 自身驱动持续改进。它将模型优化从“训练阶段的单次调整”扩展为“运行时的持续迭代”,尤其适合科学计算、代码生成等需要高度定制和稳定收敛的场景。

从技术路线看,SIA 的“元-目标-反馈”三层架构降低了自动化调优的门槛:开发者只需提供任务描述,系统即可自主进行多代优化。这与当前主流的 RLHF(人类反馈强化学习)和 AutoML 思路形成互补,但完全排除了人工介入环节。

值得注意的是,该项目是开源软件(MIT 或类似许可),允许本地运行和定制,避免了依赖第三方平台的私有数据风险。安装方式支持 Claude Agent SDK(仅 Claude 模型)和 OpenHands 多提供商方案(支持 Gemini、OpenAI、Anthropic 等),表明设计者有意兼容多种 LLM 后端。

对用户/开发者/创作者的影响

对于开发者,SIA 提供了一个可直接复用的自优化工具链:通过 sia run 命令即可启动迭代,运行结果自动保存在本地文件系统中,并附有可视化仪表盘(sia web)。这适合需要持续优化推理代码、科学管线或定制模型的团队,尤其对于 GPU 内核开发者,SIA 的自动优化能力可能显著减少手动调优时间。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对于 AI 应用创作者,SIA 的“任务描述驱动优化”模式意味着可以快速评估不同模型在特定任务上的上限,而无需编写复杂的训练或评测脚本。但对于普通终端用户,SIA 目前仍停留在代码级别,需自行配置 API 密钥和虚拟环境,使用门槛较高。

值得关注的后续

第一,SIA 的实际效果高度依赖 Meta-Agent 的推理能力。当前预设使用 Anthropic Claude 作为 Meta-Agent,如果切换到其他模型,性能是否会显著下降?这是社区评估其通用性的关键点。第二,论文中 LawBench 的 56.6% 增益(原始素材说法)与 70.1% 准确率的对比数据需要用户自行验证,项目中是否提供可复现脚本将影响信任度。第三,SIA 是否会发布更多预训练任务配置(如图像生成、文本摘要等优化),以及是否支持企业级的大规模并行运行,将是其从研究项目走向生产工具的标志。

来源:GitHub · Trending Today

celebrityanime
celebrityanime
文章: 8991

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注