在 AMD MI300X 上启动 DeepSeek-V4-Flash

一句话看懂：开发者尝试在 AMD 最新 MI300X 加速卡上部署 DeepSeek-V4-Flash 模型，并发布了配套的 vllm 补丁。这不仅是一次技术落地的验证，也暴露了 AMD 在 AI 推理生态中依然需要“更大的软件工作量”这一现实。

事件核心：发生了什么

据 Hacker News 用户分享，团队在 AMD MI300X 上成功启动并运行了 DeepSeek-V4-Flash 模型。同时，该用户发布了配套的 vllm 补丁（位于 GitHub 仓库 doublewordai/vllm-amd-blog-doubleword），供社区复现和测试。这并非一篇官方发布，而是一份来自开发社区的一手实践报告。评论区中，其他用户提到在上一代 MI250X 上让 Gemma 4 31B 正常工作“花了大量软件层面的工作”，这一经验与当前 MI300X 的情况相互印证。

为什么重要

DeepSeek 系列模型近年来在开源社区中获得了不错口碑，而 AMD 正试图通过 MI300X 这一旗舰 GPU 加速器在 AI 推理市场中挑战 NVIDIA 的统治地位。不过，硬件性能只是故事的一半——软件生态才是决胜关键。这次实践显示，即便 MI300X 硬件规格出色，要让前沿大模型（如 DeepSeek-V4-Flash）在其上顺畅运行，依然需要开发者投入额外的补丁开发和调试工作，而不是“拿过来就能跑”。这强化了一个行业共识：AMD 的 AI 路线图，必须同时加速软件栈（如 ROCm、vllm 兼容层）的成熟度，才能在低交互性推理等特定场景以外取得更大突破。

对用户/开发者/创作者的影响

对准备采购推理硬件的团队来说，这是一个重要信号：如果你考虑使用 AMD MI300X 来运行 DeepSeek 或其他开源模型，目前公开信息显示，你很可能需要具备较强的工程能力来处理额外的软件适配工作，而不能像在 NVIDIA CUDA 生态中那样“开箱即用”。对于开发者而言，这个 vllm 补丁提供了一个直接可用的参考实现，降低了尝试的起点。对于普通创作者和 API 使用者来说，现阶段的影响有限——产品的稳定性和价格不会因此立即发生变化，但如果更多类似适配工作出现，AMD 硬件的性价比优势有望在未来逐步转化为更低的服务成本。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，该 vllm 补丁能否被上游项目合并，或者被 AMD 官方采纳优化，将直接决定它能覆盖多少后续模型版本。第二，其他社区成员在 8×MI300X 配置上测试 DeepSeek V4 Pro 是否可行，这是当前评论区里最具体的跟进问题。第三，AMD 在后续的驱动和 ROCm 更新中，是否会针对此类 patch 给予更原生的支持，将直接影响企业级用户对 MI300X 的采购信心。

来源：hackernews

在 AMD MI300X 上启动 DeepSeek-V4-Flash