[分享创造] [开源]写了一个本地模型的实时字幕工具😂

一句话看懂：一位开发者开源了一个基于阿里通义千问 Qwen3-ASR-1.7B 模型的本地实时字幕工具，它结合 WebSocket 后端与 Tauri 轻量桌面窗口，专为本地看直播、视频、会议场景设计，解决了现有免费开源方案功能不完整的问题。

事件核心：发生了什么

V2EX 社区用户 vauxe 发布了一个名为 “funyi” 的开源项目，它是一款完全在本机运行的实时语音转字幕工具。技术上，该项目后端使用阿里通义千问的 Qwen3-ASR-1.7B 模型启动一个 ASR (自动语音识别) WebSocket 服务，前端则通过 Tauri 框架构建了一个轻量级的桌面字幕窗口。开发者表示，尽管市面上已有不少实时字幕工具，但当前缺乏一个同时满足“免费、开源、本地运行”且功能完备的实时语音翻译工具，因此自己动手实现。项目已托管在 GitHub，并附带了使用演示。

为什么重要

这一项目直接回应了实时字幕领域一个关键痛点：用户对隐私和低延迟有强需求（如本地会议、直播），但主流方案要么依赖云端 API 产生费用和数据外传风险，要么开源项目功能残缺或配置复杂。funyi 将通义千问的 ASR 模型本地化，并用 WebSocket 实时流式处理，让普通电脑也能离线运行高质量字幕。它对中小团队和个人开发者意味着：不再需要购买昂贵的 GPU 云服务器或依赖商业服务，即可实现实时的、私密的字幕功能。这也展示了开源社区在推动“大模型本地化落地”上的典型路径——用成熟的开源模型+轻量桌面层解决具体场景问题。

对用户/开发者/创作者的影响

对普通用户：可以直接在 Windows/macOS/Linux 上安装后使用，适用于观看外语直播、视频会议、听障辅助等场景，无需联网且无额外费用。项目门槛较低，GitHub 上的 README 提供了安装和启动步骤，但需要自行具备基本的 Python 环境配置能力（模型下载和依赖安装）。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对开发者/创作者：funyi 提供了一套可复用的本地 ASR 服务架构。开发者可以 fork 后修改模型参数、自定义字幕样式，或集成到自己的视频流、会议软件中。其 WebSocket 后端设计也便于对接其他实时应用。

对算力与硬件：虽然 Qwen3-ASR-1.7B 体积相对较小（约 1.7B 参数），但本地运行仍需一定显存和 CPU/GPU 算力，老旧集成显卡或低内存设备可能卡顿。目前项目未明确说明最低硬件配置，用户需自行测试。

值得关注的后续

1. 硬件适配与性能优化：项目是否能针对低配设备（如无独显的轻薄本）进行量化或推理优化（如 int8、ONNX Runtime），将决定其实际可用范围。2. 生态扩展：开发者是否会添加翻译引擎功能（如中英互译），或提供插件接口，使工具从“字幕”升级为“翻译字幕”，这将大幅提升商业使用场景。3. 竞品跟进：这是个人开源项目，各云厂商（如阿里云、讯飞）是否会在近期推出更轻量、甚至免费的本地 SDK 版本，将影响 funyi 的长期维护动力。目前公开信息显示，项目正处于早期发布阶段，安装体验和常见问题的收集尚未完善。

来源：V2EX (创意工作者社区)

[分享创造] [开源]写了一个本地模型的实时字幕工具😂