Show HN: Kami Subs – 适用于任何浏览器视频的实时AI字幕叠加功能

一句话看懂：开发者 MohammdKopa 在 GitHub 上开源了一款名为 Kami Subs 的 Chrome 扩展，能够对浏览器中播放的任何非DRM保护视频（如 YouTube、Twitch、新闻流）进行实时语音转录、翻译并叠加字幕，所有处理均在本地 GPU 上完成，无需云端 API 或按分钟付费。

事件核心：发生了什么

Kami Subs 是一个由 Chrome 扩展与 Python 后端组成的本地化实时 AI 字幕工具。其核心流程是：扩展通过 tabCapture 捕获浏览器标签页的音频，将其分块并重采样为 16kHz 单声道 PCM 格式，通过 WebSocket 发送至本地运行的 Python 后端；后端使用 faster-whisper 模型进行转录，并借助 deep-translator 将文本翻译成目标语言（默认阿拉伯语，支持自定义），最终将翻译结果以 JSON 形式返回扩展，叠加在视频画面上。

该工具目前仅支持 Windows 10/11 及 Chromium 116+ 浏览器（Chrome 或 Edge），要求本地安装 Python 3.10+ 以及 NVIDIA GPU（CUDA 12 + cuDNN 9）以实现亚秒级延迟。CPU 方案虽然可用，但使用 small 模型时会产生 3-5 秒延迟。后端通过 Native Messaging 机制实现点击“Start”按钮后自动启动，用户无需手动运行终端。

项目采用 MIT 开源协议，代码仓库已公开在 GitHub。开发者明确表示，Linux/macOS 支持尚未编写，但欢迎社区贡献。

为什么重要

Kami Subs 填补了一个明确的空白：Chrome 内建的 Live Caption 仅支持英语且不提供翻译；桌面端 Whisper 应用（如 Buzz）只处理文件，无法实时捕获浏览器音频；而市面上大多数“翻译任意视频”的工具是付费 SaaS，无法处理本地或私有内容。Kami Subs 通过本地运行模型、不依赖外部 API 的方式，提供了一条免费、隐私友好的实时字幕翻译路径。

从技术架构看，该方案将 Whisper 的实时转录能力与浏览器扩展的 UI 层解耦，使用 WebSocket + Native Messaging 作为通信桥接，既保持了后端的灵活性（可远程部署），又降低了用户操作门槛。这种“本地推理 + 浏览器插件”的架构模式，对于边缘 AI 应用的开发有一定参考价值。

对用户/开发者/创作者的影响

普通用户：如果你是外语内容消费者（如看英文直播、日韩 Vtuber、多语言新闻），且拥有一块 NVIDIA 显卡，Kami Subs 可以让你在本地免费获得实时翻译字幕，无需付费订阅云服务，数据也不会离开你的电脑。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

开发者：项目提供了完整的扩展安装、Native Messaging 注册、后端环境变量配置（包括模型选择、量化等级、VAD 预过滤等）文档，适合希望学习如何将 Whisper 模型以实时方式集成到浏览器扩展中的开发者。后端支持通过环境变量切换 Whisper 模型（tiny 到 large-v3）、设备（CPU/CUDA）和计算类型（int8/float16），方便性能调优。

内容创作者：如果你需要为直播或录播视频快速生成多语言字幕，Kami Subs 可以作为一个本地化的辅助工具，但需要留意 GPU 型号对延迟的直接影响——高端 NVIDIA 显卡（如 RTX 30/40 系列）才能发挥最佳效果。

值得关注的后续

第一，跨平台支持的实现进度：目前仅限 Windows 环境，Linux/macOS 用户无法使用。开发者是否愿意接受社区 PR 或自行添加支持，将直接影响该项目的用户覆盖面。第二，DRM 与隐私边界：该工具明确不支持 DRM 保护内容（如 Netflix、Disney+），但本地音频捕获本身存在被滥用于破解付费内容的潜在风险；截至目前，Chrome 的 tabCapture API 对非 DRM 内容的捕获权限受限于用户主动点击授权，但随着浏览器安全策略趋严，此功能是否会被限制值得观察。第三，准确率与延迟的实用差距：虽然 sub-second 延迟在理想 GPU 下可行，但现实场景中的背景噪音、多人对话、语速过快等都会导致延迟累积，对于实时直播场景，3-5 秒的延迟（CPU 方案）或 0.8-1.5 秒的延迟（GPU 方案）是否可接受，取决于具体用例。

来源：github.com

Show HN: Kami Subs – 适用于任何浏览器视频的实时AI字幕叠加功能