中国科学家提出“AI 语言”：人类难懂但模型能懂，文本压缩至 27.9% 仍保留 99.5% 语义

一句话看懂：上海交通大学等机构联合提出一种名为 BabelTele 的文本压缩方法，能将长文本压缩至原体积的 27.9%，同时保留 99.5% 的语义，但压缩后的文本对人类几乎不可读，仅面向大语言模型。这项研究提示，AI Agent 间的通信或可摆脱自然语言约束，大幅降低推理和传输成本。

事件核心：发生了什么

6 月 18 日，上海交通大学、悉尼大学、合肥工业大学、西安交通大学、南京大学的研究人员在预印本平台 arXiv 发表论文《大语言模型并不总是需要可读语言》，提出 BabelTele 方法。该方法通过融合多语言词汇、数学符号、逻辑运算符及表情符号，将自然语言压缩成一种高度密集的“模型语言”。在 QuALITY 长文本问答测试中，人类阅读 BabelTele 压缩后的文本后准确率显著下降，但 Gemini 3.1 Pro 的准确率保持稳定；在多智能体通信测试中，BabelTele 能在减少约 40% 通信 Token 的同时，保持超过 96% 的任务完成度。研究还表明，不同大模型之间可以实现零样本传递，即一个模型生成的压缩文本，另一个模型无需额外训练即可理解，但效果取决于压缩模型与阅读模型的配对。

为什么重要

目前大语言模型之间、AI Agent 之间的交互普遍采用为人类设计的自然语言，这包含大量冗余信息，导致 Token 消耗和推理算力浪费。BabelTele 提出了一种“模型原生语言”的概念，将文本重新编码为机器易于处理的稠密形式，本质上是在压缩层面对模型推理效率做优化。该方向若成熟，有望改变当前长文档处理、Agent 通信、多智能体协作等场景的成本结构——不再需要依赖传统的自然语言摘要或提示压缩工具（如 LLMLingua-2），而是让模型直接用更少 Token 完成等量理解。研究同时暴露了一个结构性矛盾：AI 模型与人类用户之间的信息不对称可能加剧，开发和调试阶段需要适配新的“语言接口”。

对用户/开发者/创作者的影响

对普通用户而言，短期内不会有直接体验变化——BabelTele 输出的内容人类无法理解，无法替代现有对话界面。对 AI 应用开发者和 API 使用者而言，这项技术主要影响后端推理成本：如果未来 LLM 服务商或平台引入类似压缩方法，相同任务消耗的 Token 数可能大幅减少，从而降低 API 调用费用。对于长文本处理、文档分析、AI Agent 协同等场景的开发者，BabelTele 等“模型语言”可能成为降低推理延迟和通信带宽的标准化方案。对内容创作者（如使用 AI 写摘要、整理会议纪要）影响较小，因为最终输出仍需面向人类可读。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，BabelTele 目前仍是预印本研究，尚未发布开源代码或 API，实际模型兼容性和压缩效果需独立复现验证。第二，不同主流模型（如 GPT-4o、Claude、Llama 3）对该“AI 语言”的理解一致性是关键瓶颈——研究指出效果依赖压缩模型与阅读模型的配对，这决定了技术能否跨平台通用。第三，压缩至 27.9% 带来的 Token 节省，若转化为 API 调用成本下降，可能倒逼云服务商或模型公司集成类似方法；需要关注是否有商业化产品或企业级 SDK 跟进。第四，如果未来多智能体通信强制使用不可读语言，模型可解释性与调试门槛将上升，监管与审计层面可能出现争议。

来源：IT之家 (ITHome)

中国科学家提出“AI 语言”：人类难懂但模型能懂，文本压缩至 27.9% 仍保留 99.5% 语义

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

sse_app() ignores mount prefix, resulting in 404 from client

Streamable_ ttp. py shows warning

下一波医疗人工智能浪潮可能造就的百万富翁数量将超过第一波——以下是值得持有的股票

发表回复取消回复