[程序员] claude 被封之后尝试国产替代

一句话看懂：一名开发者因Claude被封，系统性地测试了多款国产大模型的实际编码能力，发现DeepSeek V4 Pro在修复Android启动器bug时的表现最接近理想，而其他模型在逻辑连贯性和验证环节各有明显短板。这件事暴露了当前国产模型在真实开发场景中“能用但不够可靠”的现状。

事件核心：发生了什么

近日，一位匿名开发者在V2EX社区分享了自己在Claude被封后，尝试使用国产模型完成Android启动器项目bug修复的经历。他测试了Minimax 2.7、Kimi 2.7、GLM 5.2、DeepSeek V4以及Qwen 3.7等主流国产模型，统一开启“YOLO模式”（单次尝试、不调提示词），要求模型解决“启动器抽屉背景不扩展到状态栏”的UI问题。结果差异显著：Qwen 3.7 Max未能修复底部搜索栏的背景覆盖；Minimax 2.7虽有修复但改动过大；Kimi 2.7思考时间过长且“修好”后截屏图片未更新；GLM 5.2同样思考时间长且额度中途耗尽。只有DeepSeek V4 Pro成功修复并通过模拟器验证，但在项目管理环节连续出错——错误地关闭了正确分支并额外创建了新的PR。整个测试仅代表单次非严谨体验，但足够反映各模型的实战水平。

为什么重要

这个案例之所以值得关注，在于它剥离了基准测试的线性评测，还原了开发者使用AI编码的真实痛点。模型在纯文本理解和代码生成上的得分，与实际上手调试、保持会话上下文、正确管理Git工作流的能力之间存在显著落差。DeepSeek V4 Pro在修复层面的胜出，表明更先进的基础模型在具体指令遵循上仍有优势，但它的多步管理失误也说明，当前国产模型在“工程项目协作”这一维度的通用能力仍未成熟。对于正加速追赶OpenAI和Anthropic的国产大模型厂商而言，这提醒他们除了刷榜，更需要在开发工具链的稳定性与代理能力上补课。

对用户/开发者/创作者的影响

对于依赖AI进行日常编码的开发者来说，这次实测传递了几个清晰信号：一是“国产替代”目前仍需在关键环节留神核查——即使模型写对了代码，也可能会搞错提交历史或忘记验证；二是不同模型各有所长，但尚无一个能替代Claude在完整开发工作流中的连贯表现，尤其是跨会话记忆和任务管理能力；三是使用国产模型时需要接受额外的容错成本，比如更频繁的手动检查和更严格的PR审核流程。对于非技术类创作者，这个案例也暗示，如果模型连“截屏后保留确认结果”这种基本操作都做不到，那么在生成内容、处理稿件等场景中也可能出现“看起来对了实际上没改”的风险。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，DeepSeek V4 Pro在修复任务上的表现是否可复现，以及其团队是否会改善代理（Agent）在Git操作中的稳定性；第二，Kimi、GLM等模型的新版本是否会在思考时间和验证自动化上做出优化，尤其是将截图校验纳入标准流程；第三，这类非官方、非基准的开发者实测是否会形成常态化的社区评价体系，倒逼模型厂商在发布前增加更多类似的“实战场景压力测试”。

来源：V2EX (创意工作者社区)

[程序员] claude 被封之后尝试国产替代

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

我是 Gemini 及其产品体验最直言不讳的批评者之一，但它仍然是唯一一个使用单个 API 密钥就可以真正做到这一切的地方。 > Flash – 用于快速廉价的长上下文结构化任务 > Na…

如果您认为 Codex 的设计很糟糕，请尝试“使用 imagegen 重新想象这个设计并实现它”。

如果您喜欢这个，请免费注册我的时事通讯，以获得我最好的人工智能和产品指南。在此加入 110,000 多名订阅者：https://t.co/yz9xcsfrhF

发表回复取消回复