Show HN: Kami Subs – 适用于任何浏览器视频的实时AI字幕叠加功能

Show HN: Kami Subs – 适用于任何浏览器视频的实时AI字幕叠加功能

Show HN: Kami Subs – 适用于任何浏览器视频的实时AI字幕叠加功能

一句话看懂:开发者 MohammdKopa 在 GitHub 上开源了一款名为 Kami Subs 的 Chrome 扩展,能够对浏览器中播放的任何非DRM保护视频(如 YouTube、Twitch、新闻流)进行实时语音转录、翻译并叠加字幕,所有处理均在本地 GPU 上完成,无需云端 API 或按分钟付费。

事件核心:发生了什么

Kami Subs 是一个由 Chrome 扩展与 Python 后端组成的本地化实时 AI 字幕工具。其核心流程是:扩展通过 tabCapture 捕获浏览器标签页的音频,将其分块并重采样为 16kHz 单声道 PCM 格式,通过 WebSocket 发送至本地运行的 Python 后端;后端使用 faster-whisper 模型进行转录,并借助 deep-translator 将文本翻译成目标语言(默认阿拉伯语,支持自定义),最终将翻译结果以 JSON 形式返回扩展,叠加在视频画面上。

该工具目前仅支持 Windows 10/11 及 Chromium 116+ 浏览器(Chrome 或 Edge),要求本地安装 Python 3.10+ 以及 NVIDIA GPU(CUDA 12 + cuDNN 9)以实现亚秒级延迟。CPU 方案虽然可用,但使用 small 模型时会产生 3-5 秒延迟。后端通过 Native Messaging 机制实现点击“Start”按钮后自动启动,用户无需手动运行终端。

项目采用 MIT 开源协议,代码仓库已公开在 GitHub。开发者明确表示,Linux/macOS 支持尚未编写,但欢迎社区贡献。

为什么重要

Kami Subs 填补了一个明确的空白:Chrome 内建的 Live Caption 仅支持英语且不提供翻译;桌面端 Whisper 应用(如 Buzz)只处理文件,无法实时捕获浏览器音频;而市面上大多数“翻译任意视频”的工具是付费 SaaS,无法处理本地或私有内容。Kami Subs 通过本地运行模型、不依赖外部 API 的方式,提供了一条免费、隐私友好的实时字幕翻译路径。

从技术架构看,该方案将 Whisper 的实时转录能力与浏览器扩展的 UI 层解耦,使用 WebSocket + Native Messaging 作为通信桥接,既保持了后端的灵活性(可远程部署),又降低了用户操作门槛。这种“本地推理 + 浏览器插件”的架构模式,对于边缘 AI 应用的开发有一定参考价值。

对用户/开发者/创作者的影响

普通用户:如果你是外语内容消费者(如看英文直播、日韩 Vtuber、多语言新闻),且拥有一块 NVIDIA 显卡,Kami Subs 可以让你在本地免费获得实时翻译字幕,无需付费订阅云服务,数据也不会离开你的电脑。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

开发者:项目提供了完整的扩展安装、Native Messaging 注册、后端环境变量配置(包括模型选择、量化等级、VAD 预过滤等)文档,适合希望学习如何将 Whisper 模型以实时方式集成到浏览器扩展中的开发者。后端支持通过环境变量切换 Whisper 模型(tinylarge-v3)、设备(CPU/CUDA)和计算类型(int8/float16),方便性能调优。

内容创作者:如果你需要为直播或录播视频快速生成多语言字幕,Kami Subs 可以作为一个本地化的辅助工具,但需要留意 GPU 型号对延迟的直接影响——高端 NVIDIA 显卡(如 RTX 30/40 系列)才能发挥最佳效果。

值得关注的后续

第一,跨平台支持的实现进度:目前仅限 Windows 环境,Linux/macOS 用户无法使用。开发者是否愿意接受社区 PR 或自行添加支持,将直接影响该项目的用户覆盖面。第二,DRM 与隐私边界:该工具明确不支持 DRM 保护内容(如 Netflix、Disney+),但本地音频捕获本身存在被滥用于破解付费内容的潜在风险;截至目前,Chrome 的 tabCapture API 对非 DRM 内容的捕获权限受限于用户主动点击授权,但随着浏览器安全策略趋严,此功能是否会被限制值得观察。第三,准确率与延迟的实用差距:虽然 sub-second 延迟在理想 GPU 下可行,但现实场景中的背景噪音、多人对话、语速过快等都会导致延迟累积,对于实时直播场景,3-5 秒的延迟(CPU 方案)或 0.8-1.5 秒的延迟(GPU 方案)是否可接受,取决于具体用例。

来源:github.com

celebrityanime
celebrityanime
文章: 2487

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注