智象未来发布200B参数原生全模态图像大模型,开启“从生成内容到理解世界”新征程

智象未来发布200B参数原生全模态图像大模型,开启“从生成内容到理解世界”新征程

智象未来发布200B参数原生全模态图像大模型,开启“从生成内容到理解世界”新征程

一句话看懂:智象未来(ZhiXiang Future)在首届开放日活动中推出基于自研原生全模态架构UiT的图像大模型HiDream-O1-Image-Pro,参数规模超200B,在多个权威基准测试中刷新SOTA记录。同日,公司宣布获得深创投、金浦投资等机构的新一轮融资,资本方对其“原生多模态”技术路线给予明确认可。

事件核心:发生了什么

智象未来在北京举办的首次开放日上正式发布了新一代图像大模型HiDream-O1-Image-Pro。该模型基于统一Transformer架构(UiT)构建,将原始图像像素、文本token与任务条件统一映射到连续的共享token空间,实现真正的“底层表示融合”,而非传统“VAE+独立语言模型编码”的碎片化拼接模式。其闭源版本总参数量超过200B,在复杂文本渲染、指令编辑和多主体个性化生成等任务上达到行业领先。同时,公司还公开了同架构的8B参数开源版本,该版本此前在全球评测平台Artificial Analysis的图像生成开源模型榜单中位列第一,且是Top20中参数量最小的模型,说明UiT架构缩放性优秀。

为什么重要

目前视觉生成领域主流技术仍是“模态拼接”,即不同模态(文本、图像)独立编码后简单组合,难以处理复杂语义和细节还原。智象未来的UiT架构从训练起始就将空间关系、物理规律和因果逻辑等“世界规则”嵌入模型,使AI从单纯“生成内容”向“理解世界、推理世界、重构世界”演进。这条技术路径直接指向通用人工智能(AGI)所需的统一建模能力。此外,公司在半个月内完成第二轮融资,表明市场化资本对“原生多模态”路线的商业化前景判断趋于积极。其8B开源模型的性能表现,也降低了中小开发者和企业尝试该技术路线的门槛。

对用户/开发者/创作者的影响

对于内容创作者与AI影视从业者:HiDream-O1-Image-Pro的指令编辑与多主体一致性生成能力,可直接用于电商营销视频、短剧制作和社交媒体长故事视频。公司已推出商业营销智能体HiBurst(成为TikTok前五大官方服务商之一,年产出超百万条电商视频,覆盖GMV超亿元)、AI影视创作智能体“帧赞”(已制作超5000分钟短剧,吸引上千专业团队入驻)和社交媒体创作智能体vivago(支持端到端的长思考与分钟级故事视频生成,覆盖全球100多个国家与地区4000万用户)。对于开发者:可通过开源8B版本自行部署或二次开发,了解UiT架构的实现方式;闭源Pro版本可供企业级API调用,适合对生成质量与稳定性要求更高的商业场景。对于企业与投资人:智象未来已与上影新视野基金、蓝天品牌、捷成世纪、贝尔健康等达成战略合作,在影视、跨境电商、医疗等领域展开场景落地,可从其行业渗透率和合作进度中评估技术转化效率。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. 闭源Pro版本的推出时间与定价策略:目前仅知为闭源版本,具体API调用价格、部署方式及商用许可尚未公布,需关注其是否会对标OpenAI DALL·E 3或Midjourney等竞品。2. 开源8B模型的生态影响:作为榜单第一且参数最小的开源图像生成模型,是否会吸引更多开发者围绕UiT架构构建工具链、插件或LoRA微调方案,值得持续跟踪。3. 竞品技术路线是否跟进:当前国内图像生成大模型赛道,包括快手可灵、字节跳动即梦、腾讯混元等都在进行多模态升级,如果智象未来的“原生全模态”路线在公开测评中持续领先,可能加速行业从“模态拼接”向“统一建模”的技术迁移。4. 融资后团队扩张与算力投入:连续融资带来的资金将直接用于更大规模模型的训练与推理基础设施,其算力采购规模和训练集群的搭建进展,可作为模型迭代速度的参考指标。

来源:AIbase

celebrityanime
celebrityanime
文章: 3288

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注