
Show HN: PerceptAI——让AI代理能够观察任何屏幕,而不仅仅是浏览器
一句话看懂:PerceptAI 是一个开源项目,利用 EasyOCR、Groq Vision 和 PyAutoGUI,让 AI 代理能直接操作桌面应用和老旧软件,突破了过去只能处理浏览器或拥有 API 的软件的限制。
事件核心:发生了什么
开发者在 Hacker News 上发布了 PerceptAI,这是一个面向 AI 代理的屏幕控制工具。其核心思路是:不走 API,而是“看屏幕、点屏幕”。具体来说,PerceptAI 先用 EasyOCR 和 Groq Vision 读取任意屏幕上的文字与图像信息,然后通过 PyAutoGUI 模拟鼠标键盘操作。用户只需输入一条自然语言指令,代理就能自动执行,并具备自我修复和记忆功能。项目已提供在线 Demo 和 GitHub 开源代码。
为什么重要
此前,大多数 AI 代理(如基于浏览器的自动化插件)只能操作有标准网页接口或 API 的服务。但实际工作中,大量关键软件——例如企业 ERP、财务系统、设计工具、老旧终端程序——既没有现代 Web 界面,也没有对外开放的 API。PerceptAI 直接通过屏幕识别和模拟操作绕过这一限制,相当于为 AI 代理打开了“桌面世界”的大门。这种“视觉+自动化”的路线,为代理从工具类应用扩展到生产级、企业级流程自动化提供了新的技术路径。
对用户/开发者/创作者的影响
对于开发者,PerceptAI 提供了一个低门槛的集成方案:基于 Python,调用开源 OCR 和视觉模型即可实现跨应用操作,无需等待厂商开放 API。对于企业用户和管理者,这意味着有可能用一套自然语言指令同时操作内部多个“黑箱”软件,例如自动拷贝数据、填写表单、完成跨系统审批。对于内容创作者和办公室工作者,如果能进一步降低使用门槛,未来可以用一句话让 AI 自动完成截图、录入、整理等重复操作。但需注意,基于屏幕图像的操作在速度和稳定性上通常低于原生 API,适合容错性较高的辅助场景。
值得关注的后续
首先,项目的实际稳定性和执行成功率有待真实环境检验,尤其是面对复杂、多级弹窗的无界面软件时,自我修复能力是否有效。其次,Groq Vision 的 API 费用和性能会成为规模化部署的瓶颈,开发者是否会转向本地模型值得观察。第三,安全与隐私问题不容忽视:代理获得桌面全部屏幕权限,如何确保不误操作或泄露敏感信息,将是企业采用前必须解决的合规挑战。

![[推广] 福利: 2500 刀 claude key](https://www.chat-gpts.plus/wp-content/uploads/2026/05/ai_cover_4-407-768x403.jpg)
