[BUG]: Desktop Assistant “Attach application” produces low-resolution screenshots on Windows 11 (1.14.0)

快速结论：该问题通常出现在 AnythingLLM Desktop 1.14.0 版本中，当用户在 Windows 11 上使用”Attach application”功能附加应用窗口时，捕获的截图分辨率过低，导致 LLM 无法可靠分析图像细节。优先排查显示器分辨率和 AnythingLLM 的图片压缩设置（当前非用户可配置，以 JPEG 80% 质量压缩）。

问题场景

用户运行 AnythingLLM Desktop app（版本 1.14.0），通过 Desktop Assistant 的“Add attachment”功能附加目标应用窗口。在 Windows 11 双显示器设置（4K + 1920×1200）上，被捕获的截图在发送给 LLM（MiniMax-M3）进行分析时，分辨率明显不足，模型反馈图像质量过低，无法可靠分析。用户只能改用外部截图工具（如 Windows Snipping Tool）手动上传文件以获得可用结果。

报错原文

Agent response: "The captured screenshot has noticeably low resolution. The model itself reports the image quality is too low to analyze reliably."
User observation: "The captured screenshot has noticeably low resolution. The agent itself reports the image quality is too low to analyze reliably."

原因分析

可能原因：AnythingLLM 桌面版在捕获应用窗口时实施了图片下采样（downscaling）和 JPEG 压缩（80% 质量），以降低 token 消耗和推理开销。但在高 DPI 显示器（如 4K）上，该压缩策略可能导致小字体和 UI 细节（例如 GitHub 页面的侧边栏标签、assignees、类型等）在模型分析时变得不可读。开发者也怀疑 LLM 可能产生幻觉（hallucination），因为 VLM 编码器/解码器通常处理较低质量图像并提取细节的能力已经很强。但用户通过明确测试（在全新会话中要求转录图像内容，包括侧边栏文本）验证了图像确实不足以让模型准确识别所有内容。

环境排查

AnythingLLM 版本：1.14.0
操作系统：Windows 11
显示器配置：双显示器（4K + 1920×1200），通过 Thunderbolt 适配器连接笔记本电脑
LLM 提供商/模型：Generic OpenAI-compatible → MiniMax-M3
Embedder 提供商/模型：AnythingLLM Embedder → multilingual-e5-small
应用捕获方式：Desktop Assistant “Add attachment” → attach focused application

解决步骤

测试模型实际读取能力：在 Desktop Assistant 中打开新会话（确保无历史上下文干扰），附加目标窗口后，明确要求模型“转录音像中的对话”或“读取图像中的指定文本”（例如侧边栏标签、assignees 等）。如果模型输出准确，则问题可能由历史上下文或幻觉导致；如果输出不准确（如小文本错误或缺失），则确认图像分辨率不足。
使用外部截图工具作为临时替代：使用 Windows Snipping Tool 或其他截图工具捕获高分辨率屏幕截图，然后通过“Add attachment”或直接拖拽上传文件到 Desktop Assistant 中进行分析。
等待开发者添加压缩/质量设置：Issue 讨论中开发者表示可以考虑添加“High resolution screenshots”切换按钮（默认关闭），以允许用户控制截图质量。目前此功能尚未实现。
调整显示器缩放设置（实验性）：尝试将目标应用窗口的 DPI 缩放设置为 100%（不缩放），以减少捕获时的下采样影响。注意这不是官方推荐的修复方法。

验证方法

在 Desktop Assistant 中创建新会话，附加目标窗口后，明确要求模型读取图像中的小文本或 UI 元素（例如：transcribe the conversation in this image, including text from the sidebar (labels, assignees, type, projects, etc)）。如果模型能够准确转录所有细节（包括小字体侧边栏内容），则问题已解决；否则表明低分辨率问题仍然存在。开发者指出 VLM 模型对图像理解能力较强，但用户测试显示小文本仍不可读。