Show HN: AI评测——ChatGPT、Claude、Gemini和Perplexity并行对比

一句话看懂：开源项目 AI Verdict 上线了一个评测面板，允许用户在同一界面同时向 ChatGPT、Claude、Gemini 和 Perplexity 发送相同提示词，并实时对比流式输出结果。该项目解决了多模型对比时频繁切换标签页、手动复制粘贴的痛点，并为 Pro 用户提供了“裁决引擎”自动合成共识。

事件核心：发生了什么

AI Verdict（托管于 aiverdict.github.io）是一个面向 AI 重度研究者的工具型网站。其核心功能是让用户在一个面板内同时选中多个大模型（免费版支持 ChatGPT 和 Gemini，Pro 版支持全部四款），输入一次提示词后，所有模型同步生成回答并以流式方式并列展示。界面提供“并排面板”模式和“河流式”纵向阅读模式，方便用户快速识别回答间的共识与分歧。Pro 用户还可启用“裁决引擎”——由用户指定一个“领衔模型”（如 Claude），让该模型综合四个回答，输出一份结构化结论，内容涵盖关键提及、共同点、洞察差距与最终裁决。此外，系统支持自定义合成提示词、切换深色/浅色主题，以及无需额外登录即可使用免费模型。

为什么重要

目前公开信息显示，市面上缺乏一款能同时将 ChatGPT、Claude、Gemini 和 Perplexity 放在同一画布实时测评的轻量级工具。AI Verdict 的出现降低了评测门槛：开发者无需在四个标签页间反复横跳，普通用户也能直观看到不同模型对同一问题的处理差异。其“裁决引擎”本质上是一种元评测——用一个大模型去综合多个大模型的输出，这比人工逐条比对效率更高，但同时也引入了对领衔模型偏好和偏差的风险。该工具利用了用户已有浏览器登录会话，不向模型供应商额外计费，这是一种巧妙的技术实现，也意味着其商业模型可能依赖 Pro 订阅而非 API 调用费。

对用户/开发者/创作者的影响

对需要做模型选型或写 prompt 报告的开发者来说，AI Verdict 提供了即时对比的效率工具；对内容创作者，可以快速获得多个模型的差异化回答，用于多角度撰稿或选题验证；对企业采购者而言，可以用它测试同一问题在不同模型上的回答质量、安全性和一致性，辅助决策。不过需要注意，该工具目前仅为第三方开源项目，大模型本身的服务稳定性和可用性仍由 OpenAI、Anthropic、Google 和 Perplexity 决定，使用时应留意会话过期或模型服务中断的可能。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，该工具是否会开放模型自定义接入（如接入开源 Llama、Mistral 等），将决定其能否从特定工具发展为通用评测平台；第二，Pro 定价和裁决引擎的有效性需要社区持续验证——如果领衔模型生成合成共识时“一家独大”，可能掩盖其他模型的有价值输出；第三，目前免费版仅提供 ChatGPT 和 Gemini，Claude 和 Perplexity 需要用户已有浏览器登录，未来是否会要求 API Key 使用模式，会影响用户粘性和隐私透明度。

来源：aiverdict.github.io

Show HN: AI评测——ChatGPT、Claude、Gemini和Perplexity并行对比

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

OpenAI开启Codex推广活动，邀请好友即可重置使用额度

​全球芯片产能紧张 谷歌计划联合三星代工新一代AI芯片

追觅生态品牌Eclix将于9月发布首款无App AI手机，定价5000元以上

发表回复取消回复

全球芯片产能紧张谷歌计划联合三星代工新一代AI芯片