[Feature]: Rust frontend profiler routes

快速结论：当你在 vLLM 中使用 VLLM_USE_RUST_FRONTEND=1 环境变量启用 Rust 前端，并尝试通过 vllm bench serve --profile 或直接调用 POST /start_profile 和 POST /stop_profile 来控制性能分析时，这些路由在 Rust 前端中未注册，导致操作无响应。优先排查是否确实使用了 Rust 前端，并确认性能分析功能在 Python 前端下是否正常工作。

问题场景

此问题发生在使用 vLLM 部署服务时，启用了 Rust 前端（通过设置 VLLM_USE_RUST_FRONTEND=1）。用户希望通过 --profiler-config 参数启用性能分析器，并利用 POST /start_profile 和 POST /stop_profile 路由来控制性能分析过程。在 Rust 前端下，这些路由未被实现，导致相关功能（如 vllm bench serve --profile）无法正常运作。

报错原文

vllm bench serve --profile
# The --profile flag triggers POST /start_profile and POST /stop_profile.
# Under VLLM_USE_RUST_FRONTEND=1, these requests are silently ignored,
# as the Rust frontend does not register the required routes.
# No error is produced, but profiling does not start or stop.

原因分析

此问题属于功能缺失（Feature Request），而非传统的 Bug。根本原因是 vLLM 项目中的 Rust 前端代码尚未实现与 Python 前端等价的两个性能分析控制路由：POST /start_profile 和 POST /stop_profile。当 VLLM_USE_RUST_FRONTEND=1 时，所有 HTTP 请求由 Rust 前端处理，由于缺少这两个路由，对这些端点的请求实际上没有任何效果。值得注意的是，底层的性能分析引擎能力是存在的（引擎侧通过 --profiler-config 参数正确接收并传递给托管 Python 引擎），问题完全在于 Rust 前端缺少路由注册和客户端逻辑。

环境排查

确认是否启用了 VLLM_USE_RUST_FRONTEND=1 环境变量。
确认是否通过 --profiler-config 参数启用了性能分析器。
检查在 Python 前端（未设置 VLLM_USE_RUST_FRONTEND）下，POST /start_profile 和 POST /stop_profile 是否正常工作。
确认使用的 vLLM 版本是否已包含 Rust 前端支持（通常在较新版本中出现）。
检查 VLLM_SERVER_DEV_MODE 变量的设置情况，该变量在其他调试风格路由（如 sleep, pause）中使用，可能作为替代门控方案。

解决步骤

临时解决方案：在官方修复发布前，可以关闭 Rust 前端以使用 Python 前端的完整路由支持。设置 export VLLM_USE_RUST_FRONTEND=0 或直接取消设置该环境变量。
实现缺失功能（需要代码修改）：
- 在 EngineCoreClient 上添加 profile(is_start: bool, profile_prefix: String) 方法，该方法与现有的 sleep 和 pause_scheduler 包装器类似，基于 call_utility 实现。
- 创建新的路由文件 routes/profile.rs，可参考 routes/sleep.rs 的结构。
- 在 routes.rs 中注册 /start_profile 和 /stop_profile 两个端点，确保它们调用 EngineCoreClient 上的新 profile 方法。
- 关于功能门控，有两种可选方案（可优先尝试）：
  - 方案 A：使 Rust 前端感知 --profiler-config 标志。这需要进行新的管道改造，以将标志从前端传递到路由注册逻辑。
  - 方案 B：将路由门控放在 VLLM_SERVER_DEV_MODE 下。这是更简洁的方案，因为其他调试风格路由已经使用了该变量，且性能分析控制功能具有相似的调试用途。
跟踪官方修复：关注 vLLM 项目（vllm-project/vllm）的后续 Pull Request，该功能已被标记为待实现。

验证方法

在启用 Rust 前端（VLLM_USE_RUST_FRONTEND=1）的情况下，启动带 --profiler-config 的服务，然后通过 curl 或其他 HTTP 客户端尝试调用以下端点：

curl -X POST http://localhost:8000/start_profile
curl -X POST http://localhost:8000/stop_profile

如果功能已实现，这些调用应能成功启动和停止性能分析（可配合 vllm bench serve --profile 使用）。如果未实现，则这些调用将没有任何效果（无错误，也无性能分析数据生成）。

参考来源

vllm-project/vllm #46092

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

[Feature]: Rust frontend profiler routes