Show HN: Piqc – 面向大型语言模型推理集群的 GPU 废弃物扫描器

一句话看懂：开源工具 Piqc 发布，能在几分钟内扫描 Kubernetes 上的 LLM 推理集群，定位 GPU 算力浪费——包括闲置分配、层级错配和无人节点——并直接换算成美元损失。对于许多运行 vLLM、Triton 等推理框架的团队来说，这可能是第一块看得见的算力“漏损仪表盘”。

事件核心：发生了什么

项目 Piqc（GPU Waste Scanner）由社区在 GitHub 上发布，是一款专为 Kubernetes 环境设计的只读扫描器。它不需要代理、Sidecar 或永久安装，以 Job 形式运行一次后打印结果并退出。其核心能力是自动发现集群中所有使用 nvidia.com/gpu 资源请求的推理部署（支持 vLLM、TGI、Triton 等），并识别三类浪费：闲置分配（Pod 占用 GPU 但计算利用率极低）、层级错配（例如 7B 模型跑在 H100 上但仅需 T4）、暗容量（GPU 节点完全无 Pod 调度）。扫描结果以表格加成本汇总的形式输出，包含 GPU 利用率、模型浮点利用率（MFU）、每千令牌成本、每小时/每日浪费金额等关键指标。

为什么重要

AI 推理集群的 GPU 利用率偏低是行业共识，但具体“低多少”“浪费在哪里”一直缺乏可量化、可追溯到 Pod 层面的工具。原生 Kubernetes 监控（kubectl top、kube-state-metrics 等）无法区分“Pod 分配了 GPU 是否在用”，也不具备按推理引擎语义判断层级匹配的能力。Piqc 的价值在于：

把浪费直接翻译成美元：示例输出显示，一个集群可能每天浪费 3907 美元（折合年化 142 万美元），这对预算敏感的中小型团队或内部成本中心是震撼数字。
零侵入式设计：无需安装常驻服务或无权限容器，降低安全审核门槛——这对于多租户集群或生产环境尤其重要。
可操作性强：明确指出了哪些模型可以降级到更便宜的 GPU 实例，哪些 Pod 可以回收。目前公开信息显示，Piqc 支持的 Tier Fit 判断基于 GPU 显存与算力等级的硬性对照，这为自动扩缩容或调度器优化提供了直接输入。

对用户/开发者/创作者的影响

运维与平台工程团队：可定期运行 Piqc 扫描，将报告纳入成本治理流程，消除此前“凭感觉调优”的盲区。
AI 应用开发者 / 模型服务商：如果正在自建推理集群（无论是 GKE、EKS、AKS 还是裸金属），Piqc 能直接揭示哪些模型实例存在过度配置。例如，一个 embedding 模型跑在 8xH100 上显然不经济，Piqc 会直接标记 Tier Fit 异常并提示候选替代 GPU。
企业采购与 FinOps 角色：Piqc 的数据可以作为 GPU 预留实例购买、弹性扩缩容策略调整的参考——特别是当报告显示 30-60% 的 MFU 是健康区间，而多数集群的利用率远低于此。

值得关注的后续

平台集成：Piqc 目前是命令行工具，未来是否会以 Prometheus Exporter 或 Grafana Dashboard 的形式长期运行，将影响其落地深度。目前只能按需扫描，无法持续告警。
推理引擎支持扩展：目前已覆盖 vLLM、Triton、TGI 等主流框架，但对 Ollama、TensorRT-LLM 等新生态的支持情况尚不明确。
Cost 模型的准确性与可配置性：GPU 单价因云厂商、区域、折扣方式差异极大。Piqc 目前使用了默认定价，若不能允许用户自定义成本表，其“年化浪费”数据可能偏离实际。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

来源：github.com

Show HN: Piqc – 面向大型语言模型推理集群的 GPU 废弃物扫描器