AI原生时代下,让世界适应Agent,而非教AI做人 | 港大黄超@AIGC2026

AI原生时代下,让世界适应Agent,而非教AI做人 | 港大黄超@AIGC2026

AI原生时代下,让世界适应Agent,而非教AI做人 | 港大黄超@AIGC2026

一句话看懂:香港大学助理教授黄超在2026中国AIGC产业峰会上提出,AI Agent不应费力模仿人类操作图形界面,而应让软件原生支持命令行接口。他带领团队开源轻量级Agent框架nanobot(下载量超20万次),并推动CLI-Anything项目,试图重新定义Agent与数字世界的交互方式。

事件核心:发生了什么

在量子位主办的2026中国AIGC产业峰会上,黄超系统回顾了其团队两年多关于AI Agent的实践。团队反其道而行之,开源了仅数万行代码的通用Agent框架nanobot,连续100天日更迭代,下载量突破20万次,被DeepSeek推荐为全球15个Agent之一,曾在OpenRouter平台排名第四。在此基础上,团队提出CLI-Anything方案,将专业软件(如3D建模、设计工具)重新包装为命令行接口(CLI),让Agent直接驱动。目前CLI Hub已覆盖80个软件、31个分类。黄超认为,相比图形界面(GUI),CLI才是真正AI原生的Computer Use方式——不是教AI用鼠标,而是让数字世界说AI的语言。

为什么重要

这一观点直接挑战了当前AI Agent的主流技术路线——让Agent模仿人类操作GUI。黄超指出,GUI路径存在两大根本缺陷:多模态交互成本过高,以及基于像素级精准点击的可靠性不足。他强调,Agent的核心场景不应局限于对话和代码生成,而要成为能操控复杂软件生态的“数字劳动力”。由此,CLI-Anything代表了一种交互范式的根本重构:从“人类友好”到“AI友好”。同时,团队在Agent自进化方面选择外部技能沉淀路线,而非内部参数调优或工作流优化。其AI自动化科研实验显示:当8个Agent协调8张H100显卡训练模型时,集群确实能提升效率,但扩展至更大规模后出现边际收益递减,甚至协调开销超过性能增益。这暗示Agent协作存在最优临界规模,为行业提供了反直觉的参考。

对用户/开发者/创作者的影响

对开发者:nanobot的开源和轻量设计降低了Agent开发门槛,开发者可快速二次开发或学习Agent技术栈。CLI-Anything的提出意味着未来为AI提供CLI接口可能成为软件开发的标配,而不是编写复杂的API文档或等待Agent调优GUI操作。对创作者/企业用户:若CLI-Anything方案落地,用户无需学习3D建模、设计软件等专业工具的复杂界面,只需通过Agent下达自然语言指令,由Agent通过CLI完成操作。这有望降低专业软件的使用门槛,但也要求企业为既有软件增加命令行封装能力。对AI行业:黄超强调“Token本身就是实际成本约束”,Agent必须在追求能力上界的同时考虑经济性。未来Agent产品可能不再一味追求“更聪明”,而是追求“更省钱”且“更稳定”。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,CLI Hub能否从80个软件扩展至主流商业软件生态(如Adobe、Autodesk系列),并获得软件厂商支持或形成开源社区维护的协作机制。第二,nanobot在长程复杂任务中的实际表现——黄超团队用其开发完整马里奥游戏以验证端到端能力,但ToB场景的鲁棒性尚未有公开数据支撑。第三,Agent协作的临界规模是否有更通用的数学规律,对其在企业级集群部署中的成本收益计算至关重要。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 4697

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注