中国科学家提出“AI 语言”:人类难懂但模型能懂,文本压缩至 27.9% 仍保留 99.5% 语义

上海交通大学等机构联合提出一种名为 BabelTele 的文本压缩方法,能将长文本压缩至原体积的 27.9%,同时保留 99.5% 的语义,但压缩后的文本对人类几乎不可读,仅面向大语言模型。这项研究提示,AI Agent 间的通信或可摆脱自然语言约束,大幅降低推理和传输成本。

中国科学家提出“AI 语言”:人类难懂但模型能懂,文本压缩至 27.9% 仍保留 99.5% 语义

一句话看懂:上海交通大学等机构联合提出一种名为 BabelTele 的文本压缩方法,能将长文本压缩至原体积的 27.9%,同时保留 99.5% 的语义,但压缩后的文本对人类几乎不可读,仅面向大语言模型。这项研究提示,AI Agent 间的通信或可摆脱自然语言约束,大幅降低推理和传输成本。

事件核心:发生了什么

6 月 18 日,上海交通大学、悉尼大学、合肥工业大学、西安交通大学、南京大学的研究人员在预印本平台 arXiv 发表论文《大语言模型并不总是需要可读语言》,提出 BabelTele 方法。该方法通过融合多语言词汇、数学符号、逻辑运算符及表情符号,将自然语言压缩成一种高度密集的“模型语言”。在 QuALITY 长文本问答测试中,人类阅读 BabelTele 压缩后的文本后准确率显著下降,但 Gemini 3.1 Pro 的准确率保持稳定;在多智能体通信测试中,BabelTele 能在减少约 40% 通信 Token 的同时,保持超过 96% 的任务完成度。研究还表明,不同大模型之间可以实现零样本传递,即一个模型生成的压缩文本,另一个模型无需额外训练即可理解,但效果取决于压缩模型与阅读模型的配对。

为什么重要

目前大语言模型之间、AI Agent 之间的交互普遍采用为人类设计的自然语言,这包含大量冗余信息,导致 Token 消耗和推理算力浪费。BabelTele 提出了一种“模型原生语言”的概念,将文本重新编码为机器易于处理的稠密形式,本质上是在压缩层面对模型推理效率做优化。该方向若成熟,有望改变当前长文档处理、Agent 通信、多智能体协作等场景的成本结构——不再需要依赖传统的自然语言摘要或提示压缩工具(如 LLMLingua-2),而是让模型直接用更少 Token 完成等量理解。研究同时暴露了一个结构性矛盾:AI 模型与人类用户之间的信息不对称可能加剧,开发和调试阶段需要适配新的“语言接口”。

对用户/开发者/创作者的影响

对普通用户而言,短期内不会有直接体验变化——BabelTele 输出的内容人类无法理解,无法替代现有对话界面。对 AI 应用开发者和 API 使用者而言,这项技术主要影响后端推理成本:如果未来 LLM 服务商或平台引入类似压缩方法,相同任务消耗的 Token 数可能大幅减少,从而降低 API 调用费用。对于长文本处理、文档分析、AI Agent 协同等场景的开发者,BabelTele 等“模型语言”可能成为降低推理延迟和通信带宽的标准化方案。对内容创作者(如使用 AI 写摘要、整理会议纪要)影响较小,因为最终输出仍需面向人类可读。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,BabelTele 目前仍是预印本研究,尚未发布开源代码或 API,实际模型兼容性和压缩效果需独立复现验证。第二,不同主流模型(如 GPT-4o、Claude、Llama 3)对该“AI 语言”的理解一致性是关键瓶颈——研究指出效果依赖压缩模型与阅读模型的配对,这决定了技术能否跨平台通用。第三,压缩至 27.9% 带来的 Token 节省,若转化为 API 调用成本下降,可能倒逼云服务商或模型公司集成类似方法;需要关注是否有商业化产品或企业级 SDK 跟进。第四,如果未来多智能体通信强制使用不可读语言,模型可解释性与调试门槛将上升,监管与审计层面可能出现争议。

来源:IT之家 (ITHome)

celebrityanime
celebrityanime
文章: 9015

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注