claude-real-video ─ 让任何大语言模型（LLM）都能观看视频

一句话看懂：开发者推出开源工具 claude-real-video，以本地运行的方式，通过场景变化检测和去重技术，让 Claude、ChatGPT、Gemini 等大语言模型真正“看懂”视频帧画面，而非仅读取字幕或定时截图。

事件核心：发生了什么

开发者 HUANGCHIHHUNGLeo 在 GitHub 上发布了 claude-real-video，这是一个 Python 命令行工具。它的核心思路是：不依赖云端处理，在用户本地机器上，用 ffmpeg 提取视频中发生场景变化的关键帧（而非固定帧率采样），并利用基于像素差值的滑动窗口去除近乎重复的画面。同时使用 Whisper 进行语音识别转录，生成包含帧图片及对应时间戳描述的 MANIFEST.txt 输出文件夹。用户可将此文件夹直接拖入 Claude、ChatGPT 或 Gemini 等大模型界面进行多模态问答。项目已开源，支持 YouTube、Instagram 等链接及本地文件输入，并提供了 scene 敏感度（默认0.30）、fps-floor 密度下限（默认1帧/秒）、max-frames 数量上限（默认150帧）等多项可调参数。

为什么重要

当前主流大模型处理视频的能力各不相同且各有局限：ChatGPT 仅读取 YouTube 链接的字幕转写，完全不解析画面；Claude 至今不支持上传视频文件；Gemini 虽原生支持视频，但需将文件上传至 Google 云端，且默认以每秒1帧的固定间隔采样，容易漏掉快速切换画面或对静态屏幕内容产生大量冗余帧。claude-real-video 针对这些痛点，在本地端完成了“场景变化检测 + 去重 + 语音转录”三个预处理步骤，使常规文本/图像多模态 LLM 能以更少、更具代表性的帧获得对视频内容的整体理解。这一做法实际上降低了使用大模型处理视频的算力门槛与隐私顾虑（数据不上传第三方云端），并为开发者提供了一种灵活的、可复用的视频理解通用工作流。

对用户/开发者/创作者的影响

对于普通用户，只需在终端运行类似 crv "YouTube链接" 的命令，即可让任何支持图像输入的 LLM 分析视频内容，包括视频中的物体、场景、动作等视觉元素，而不仅仅是文本。对于AI应用开发者，该工具提供了一个清晰的参考实现——如何将视频预处理与通用 LLM 结合，且输出格式（MANIFEST.txt + JPG帧）完全开放，可嵌入自己的自动化管线，例如用于视频摘要、内容审核或教学分析。对于视频内容创作者，可用该工具快速对长视频进行关键帧摘要，辅助生成文案或进行素材管理。不过，用户需自行安装 ffmpeg，且音频转录依赖 OpenAI Whisper 模型，在无 GPU 机器上处理长视频可能需要较长时间。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，项目目前仍是一个独立命令行工具，其是否能发展为成熟的 Web 服务或桌面应用，取决于开发者的迭代速度和社区贡献。第二，Gemini 等闭源模型可能因这类本地工具的兴起，被迫优化其视频采样策略，例如支持更灵活的场景检测而非固定 fps；同时，OpenAI 是否考虑为 ChatGPT 添加原生视频理解能力也值得跟踪。第三，开源社区能否围绕框架创建更多集成，例如自动将分析结果接入 RAG 系统、或为做 AI 安全的研究人员提供无云端泄露的视频分析途径，将决定该工具的实际生态影响。

来源：Hacker News 热门（buzzing.cc 中文翻译）

claude-real-video ─ 让任何大语言模型（LLM）都能观看视频

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

为长三角科技创新持续输送高素质人才！助力上海（长三角）国际科创中心建设，若干举措正式发布

一杯拿铁3毛8，Gemini 3.1联手GPT-5.5干黄咖啡馆，2个月烧光21万

Fable5 内心「小作文」曝光，这次真不做人了

发表回复取消回复