苹果用 AI 重新发明了图像压缩:同样画质,文件只要三分之一

苹果用 AI 重新发明了图像压缩:同样画质,文件只要三分之一

苹果用 AI 重新发明了图像压缩:同样画质,文件只要三分之一

一句话看懂:苹果团队发布了一款名为 PICO 的实时图像编解码器,在相同视觉质量下,文件体积仅为传统标准(如 AV1、JPEG AI)的三分之一到二分之一。这解决了感知压缩长期无法工程落地的难题,并已在 iPhone 17 Pro Max 上实现了毫秒级实时编码与解码。

事件核心:发生了什么

2025 年 6 月,苹果研究团队在预印本平台 arXiv 上发表了题为《What Matters in Practical Learned Image Compression》的论文,正式推出 PICO(Perceptual Image Codec)。PICO 是一个端到端学习型感知图像编解码器,其核心创新在于三个工程化解法:一是采用一次性上下文模型,将自回归熵编码的速度瓶颈从串行变为一次前向传播,大幅提速;二是设计了 Text Fidelity Loss 损失函数,针对人眼敏感的图文区域强制施加严格保真约束,将文字区域误差降低一半;三是引入多分辨率 L1 损失处理分块处理时的边界色差,将瓦片边界误差减少一半以上。苹果委托第三方平台 Mabyduck 组织了 610 名评测者进行了 74,925 次盲测,结果显示相同视觉质量下,PICO 文件体积仅为 AV1、JPEG AI 等现有标准的 30%-50%。在 iPhone 17 Pro Max 上,编码一张 12MP 照片仅需 230 毫秒,解码仅需 150 毫秒。该项目核心团队原属初创公司 WaveOne(以实时 AI 压缩闻名),后整体加入苹果,PICO 是其系统性成果。

为什么重要

此事件的意义在于突破了图像压缩领域数十年来“优化数学指标”与“优化人眼感知”之间的鸿沟。传统编解码器(从 JPEG 到 JPEG AI)一直在 PSNR 等指标框架内优化,并未真正针对人眼视觉体验设计。PICO 是第一个系统性从架构、损失函数到人类主观评测均围绕“人眼满意”设计,并在消费级手机端实时运行的感知压缩工程方案。这直接挑战了 JPEG AI 等“学习型标准”的顶层设计逻辑,也重新定义了高质量压缩的实用标准:不是 PSNR 更高,而是人眼看着更好,而且能在手机上快速跑。同时,骨干团队从初创到苹果的迁移背景,也提示了感知压缩技术正在从实验室研究走向消费级产品落地。

对用户/开发者/创作者的影响

对普通用户来说,最直接的体验是:分享高质量照片时,文件体积会显著缩小而不损失视觉质量,节省存储空间和上传带宽。对图像、视频处理相关的开发者和内容创作者(如摄影师、设计师、社交媒体运营者)而言,PICO 的编码能力意味着同样画质的作品能更轻量地分发与存档;但在处理卡通、示意图等高度规则化的合成图像时,其压缩效率可能不如传统编解码器,需要根据素材类型选择合适的工具。对于 AI 模型开发者和算力采购方,PICO 已证明在手机端实现实时感知压缩是可行的,未来可关注苹果是否会开放 API 或 SDK,供第三方应用调用。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. 落地时间与渠道:PICO 是否会集成在 iOS 或 macOS 的相册、照片编辑功能中?如果是,普通用户可能在 2025-2026 年的系统更新中体验到。2. 竞品反应:JPEG AI 和 AV1 生态里的谷歌、高通、联发科等是否会迅速跟进感知优化?还是坚持数学指标路线?3. 开放程度:苹果是否会将 PICO 开源或提供 API 给开发者生态?目前公开信息显示论文已公开,但未提及开源计划。如果最终封闭在苹果硬件内,其影响力将局限在苹果用户圈子。4. 局限性:对卡通等合成内容的压缩效率劣势是否会作为后续优化方向?这决定 PICO 能否覆盖更通用的压缩场景。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 4517

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注