Lance 实践:从多模态数据湖到 Agent 记忆湖的演进之路|AICon上海

Lance 实践:从多模态数据湖到 Agent 记忆湖的演进之路|AICon上海

Lance 实践:从多模态数据湖到 Agent 记忆湖的演进之路|AICon上海

一句话看懂:火山引擎数据库专家马进将在 AICon 大会上分享一种名为 Lance 的开源数据格式,它正从多模态数据湖方案演变为支撑 AI Agent 长期记忆的基础设施。这意味着,开发者未来可能用类似数据库的方式统一管理 Agent 使用的文本、图片、向量索引和聊天历史,而不必在多个系统间反复同步数据。

事件核心:发生了什么

6 月 26 日至 27 日,在上海举办的 AICon 全球人工智能开发与应用大会上,火山引擎数智平台端侧记忆负责人马进将发表题为《Lance 实践:从多模态数据湖到 Agent 记忆湖的演进之路》的演讲。马进是 Lance 社区的核心贡献者及 Maintainer,同时参与 Apache Amoro 项目。他的分享将聚焦如何用 Lance 格式解决 Agent 场景下的数据管理难题:传统数据湖擅长处理结构化数据和离线分析,但面对 Agent 涉及的图片、视频、文本、Embedding 向量、长期记忆等多模态数据时,存在存储分散、检索效率低、跨系统同步成本高的问题。Lance 通过将原始数据、元数据、Embedding 和索引统一存储在单一格式中,支持高吞吐随机访问、原生向量检索和全文本检索,从而降低跨系统同步开销,提升数据复用与迭代效率。该方案已在多模态数据管理和智能检索场景中完成验证。

为什么重要

Agent 从 Demo 走向工程化,一个关键瓶颈在于如何管理其“记忆”。当前实践中,Agent 的记忆往往分散在向量数据库、关系数据库和对象存储等多个系统中,数据链路割裂导致维护成本和延迟上升。Lance 代表的是一种“记忆湖”思路——把存储、索引和查询能力合并到同一湖仓格式中,让 Agent 的长期记忆、短期对话历史和检索增强生成(RAG)管道共享同一份数据底座,无需大量手动编写数据同步脚本。如果这一路线被更多团队采用,可能改变当前 AI Agent 基础设施的拼凑格局,降低企业构建复杂 Agent 系统的工程门槛。

对用户/开发者/创作者的影响

对 AI 应用开发者而言,Lance 提供了一个值得尝试的开源工具:可以用一个格式同时管理图像、文本、音频、Embedding 和索引,减少对接多个数据库和存储系统的复杂度。对正在搭建 RAG 或 Agent 记忆管线的技术团队,马进分享的实践案例(包括数据同步、检索性能优化和版本管理)能帮助评估是否值得迁移到统一 Lakehouse 方案。对企业决策者来说,目前公开信息显示该方案仍处于早期验证阶段,但值得关注其在降低基础设施运维成本和提升迭代速度方面的具体效果。

值得关注的后续

  1. Lance 社区是否会推出更完整的 Agent Memory SDK,降低开发者使用门槛。
  2. AICon 大会上其他企业(如腾讯、阿里、快手)的同类议题是否会展示不同技术路径,形成对比讨论。
  3. 火山引擎是否会将 Lance 集成进其数据平台产品,从而影响企业采购决策。

来源:InfoQ CN

celebrityanime
celebrityanime
文章: 5943

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注