
一句话看懂:上海交通大学等机构联合提出一种名为 BabelTele 的文本压缩方法,能将长文本压缩至原体积的 27.9%,同时保留 99.5% 的语义,但压缩后的文本对人类几乎不可读,仅面向大语言模型。这项研究提示,AI Agent 间的通信或可摆脱自然语言约束,大幅降低推理和传输成本。
事件核心:发生了什么
6 月 18 日,上海交通大学、悉尼大学、合肥工业大学、西安交通大学、南京大学的研究人员在预印本平台 arXiv 发表论文《大语言模型并不总是需要可读语言》,提出 BabelTele 方法。该方法通过融合多语言词汇、数学符号、逻辑运算符及表情符号,将自然语言压缩成一种高度密集的“模型语言”。在 QuALITY 长文本问答测试中,人类阅读 BabelTele 压缩后的文本后准确率显著下降,但 Gemini 3.1 Pro 的准确率保持稳定;在多智能体通信测试中,BabelTele 能在减少约 40% 通信 Token 的同时,保持超过 96% 的任务完成度。研究还表明,不同大模型之间可以实现零样本传递,即一个模型生成的压缩文本,另一个模型无需额外训练即可理解,但效果取决于压缩模型与阅读模型的配对。
为什么重要
目前大语言模型之间、AI Agent 之间的交互普遍采用为人类设计的自然语言,这包含大量冗余信息,导致 Token 消耗和推理算力浪费。BabelTele 提出了一种“模型原生语言”的概念,将文本重新编码为机器易于处理的稠密形式,本质上是在压缩层面对模型推理效率做优化。该方向若成熟,有望改变当前长文档处理、Agent 通信、多智能体协作等场景的成本结构——不再需要依赖传统的自然语言摘要或提示压缩工具(如 LLMLingua-2),而是让模型直接用更少 Token 完成等量理解。研究同时暴露了一个结构性矛盾:AI 模型与人类用户之间的信息不对称可能加剧,开发和调试阶段需要适配新的“语言接口”。
对用户/开发者/创作者的影响
对普通用户而言,短期内不会有直接体验变化——BabelTele 输出的内容人类无法理解,无法替代现有对话界面。对 AI 应用开发者和 API 使用者而言,这项技术主要影响后端推理成本:如果未来 LLM 服务商或平台引入类似压缩方法,相同任务消耗的 Token 数可能大幅减少,从而降低 API 调用费用。对于长文本处理、文档分析、AI Agent 协同等场景的开发者,BabelTele 等“模型语言”可能成为降低推理延迟和通信带宽的标准化方案。对内容创作者(如使用 AI 写摘要、整理会议纪要)影响较小,因为最终输出仍需面向人类可读。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,BabelTele 目前仍是预印本研究,尚未发布开源代码或 API,实际模型兼容性和压缩效果需独立复现验证。第二,不同主流模型(如 GPT-4o、Claude、Llama 3)对该“AI 语言”的理解一致性是关键瓶颈——研究指出效果依赖压缩模型与阅读模型的配对,这决定了技术能否跨平台通用。第三,压缩至 27.9% 带来的 Token 节省,若转化为 API 调用成本下降,可能倒逼云服务商或模型公司集成类似方法;需要关注是否有商业化产品或企业级 SDK 跟进。第四,如果未来多智能体通信强制使用不可读语言,模型可解释性与调试门槛将上升,监管与审计层面可能出现争议。


