Show HN: Piqc – 面向大型语言模型推理集群的 GPU 废弃物扫描器

Show HN: Piqc – 面向大型语言模型推理集群的 GPU 废弃物扫描器

Show HN: Piqc – 面向大型语言模型推理集群的 GPU 废弃物扫描器

一句话看懂:开源工具 Piqc 发布,能在几分钟内扫描 Kubernetes 上的 LLM 推理集群,定位 GPU 算力浪费——包括闲置分配、层级错配和无人节点——并直接换算成美元损失。对于许多运行 vLLM、Triton 等推理框架的团队来说,这可能是第一块看得见的算力“漏损仪表盘”。

事件核心:发生了什么

项目 Piqc(GPU Waste Scanner)由社区在 GitHub 上发布,是一款专为 Kubernetes 环境设计的只读扫描器。它不需要代理、Sidecar 或永久安装,以 Job 形式运行一次后打印结果并退出。其核心能力是自动发现集群中所有使用 nvidia.com/gpu 资源请求的推理部署(支持 vLLM、TGI、Triton 等),并识别三类浪费:闲置分配(Pod 占用 GPU 但计算利用率极低)、层级错配(例如 7B 模型跑在 H100 上但仅需 T4)、暗容量(GPU 节点完全无 Pod 调度)。扫描结果以表格加成本汇总的形式输出,包含 GPU 利用率、模型浮点利用率(MFU)、每千令牌成本、每小时/每日浪费金额等关键指标。

为什么重要

AI 推理集群的 GPU 利用率偏低是行业共识,但具体“低多少”“浪费在哪里”一直缺乏可量化、可追溯到 Pod 层面的工具。原生 Kubernetes 监控(kubectl top、kube-state-metrics 等)无法区分“Pod 分配了 GPU 是否在用”,也不具备按推理引擎语义判断层级匹配的能力。Piqc 的价值在于:

  • 把浪费直接翻译成美元:示例输出显示,一个集群可能每天浪费 3907 美元(折合年化 142 万美元),这对预算敏感的中小型团队或内部成本中心是震撼数字。
  • 零侵入式设计:无需安装常驻服务或无权限容器,降低安全审核门槛——这对于多租户集群或生产环境尤其重要。
  • 可操作性强:明确指出了哪些模型可以降级到更便宜的 GPU 实例,哪些 Pod 可以回收。目前公开信息显示,Piqc 支持的 Tier Fit 判断基于 GPU 显存与算力等级的硬性对照,这为自动扩缩容或调度器优化提供了直接输入。

对用户/开发者/创作者的影响

  • 运维与平台工程团队:可定期运行 Piqc 扫描,将报告纳入成本治理流程,消除此前“凭感觉调优”的盲区。
  • AI 应用开发者 / 模型服务商:如果正在自建推理集群(无论是 GKE、EKS、AKS 还是裸金属),Piqc 能直接揭示哪些模型实例存在过度配置。例如,一个 embedding 模型跑在 8xH100 上显然不经济,Piqc 会直接标记 Tier Fit 异常并提示候选替代 GPU。
  • 企业采购与 FinOps 角色:Piqc 的数据可以作为 GPU 预留实例购买、弹性扩缩容策略调整的参考——特别是当报告显示 30-60% 的 MFU 是健康区间,而多数集群的利用率远低于此。

值得关注的后续

  1. 平台集成:Piqc 目前是命令行工具,未来是否会以 Prometheus Exporter 或 Grafana Dashboard 的形式长期运行,将影响其落地深度。目前只能按需扫描,无法持续告警。
  2. 推理引擎支持扩展:目前已覆盖 vLLM、Triton、TGI 等主流框架,但对 Ollama、TensorRT-LLM 等新生态的支持情况尚不明确。
  3. Cost 模型的准确性与可配置性:GPU 单价因云厂商、区域、折扣方式差异极大。Piqc 目前使用了默认定价,若不能允许用户自定义成本表,其“年化浪费”数据可能偏离实际。
GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

来源:github.com

celebrityanime
celebrityanime
文章: 5192

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注