标签: GPT-4

[Google Gemini] Gemini 变笨了?

[Google Gemini] Gemini 变笨了?

多位 V2EX 用户在近几周集中反馈称,Google Gemini 的智能水平出现了明显下滑,与其 2025 年上半年(尤其是 2–3 月)的表现“判若两人”,同时使用限制也变得更严格。

DeepSeek完成逾70亿美元首轮融资:估值超500亿美元

DeepSeek完成逾70亿美元首轮融资:估值超500亿美元

AI大模型独角兽DeepSeek通过特殊交易结构完成首轮超70亿美元融资,投后估值突破500亿美元。创始人梁文锋个人出资20亿元,腾讯与宁德时代作为战略投资者加入,且本轮融资采用不设投票权、五年锁定期等安排,确保创始团队对公司与技术路线的绝对控制。

AI组队“拼单”新模式:OpenRouter 发布 Fusion API,主打性能与性价比双重优化

AI组队“拼单”新模式:OpenRouter 发布 Fusion API,主打性能与性价比双重优化

AI 模型聚合平台 OpenRouter 近期推出了名为 “Fusion API” 的复合模型服务,通过同时调用多个模型并整合最优答案,在多项测试中实现了比单一头部模型(如 Claude Fable5)更高的性能,同时成本最多可降低约一半。这不是一个概念产品,而是已经发布可用、有基准测试数据的正式服务。

LLM网关聊天

LLM网关聊天

LLM Gateway 推出对话聊天产品,以单一账号余额接入 210 多个模型,支持在对话中随时切换模型并运行图像、视频、音频生成,意图降低开发者与普通用户的多模型管理门槛。

[程序员] 想请教 claude 如何实战,我自己想从头到尾实现一个 ios 的 app,不知道如何高效的利用 claude?

[程序员] 想请教 claude 如何实战,我自己想从头到尾实现一个 ios 的 app,不知道如何高效的利用 claude?

一位独立开发者在 V2EX 上发帖求助,反映在尝试用 Claude 从零开发一个完整 iOS App 的过程中,遇到了 chat 模式效率低、对话限制频繁、UI 设计不连贯和缺乏系统流程指引等核心痛点。这并非个例,而是当前大量 AI 辅助开发新手共同面临的结构性困境。

伯克利RDI发布Agents’ Last Exam基准

伯克利RDI发布Agents' Last Exam基准

伯克利RDI发布Agents' Last Exam(ALE)基准,用1500+真实专家级任务测试AI Agent的“可上岗”能力。结果显示,即便最强模型(如Fable 5)在最高难度任务上成功率仍为0%,且不同模型性能差异巨大:Fable 5单任务成本约$15.70,而Composer 2.5仅需$1.33。