#36836 [Feat][Executor] Introduce RayExecutorV2

原始 PR 作者 jeffreywang-anyscale 合并时间 2026-04-02 05:34 文件变更 14 提交数 31 评论 96 代码增减 +1603 / -30

执行摘要

引入全新的 RayExecutorV2，以 MessageQueue 控制平面替代编译图后端，提升 Ray 分布式执行器的稳定性和可维护性。

引入RayExecutorV2的主要动机源于当前RayDistributedExecutor（基于编译图后端）存在的诸多问题。根据关联RFC Issue #35848，编译图后端存在未解决的稳定性问题（如NCCL挂起、乱序交付），且Ray核心团队维护资源有限，带来了沉重的维护负担。同时，自v0.15.0引入异步调度后，编译图旨在隐藏的每步调度延迟已不再是主要瓶颈，其优化收益（如通信计算重叠）可通过torch.distributed等独立实现。因此，需要一个新的、更稳定、更易维护的Ray后端。PR正文明确指出，新后端将复用MultiprocExecutor的通信模型，并使用Ray进行工作进程编排。

建议所有技术管理者和核心基础设施工程师精读此PR。 对于工程师，重点关注以下设计决策：

RayExecutorV2如何通过继承MultiprocExecutor复用通信层，同时重写_init_executor来集成Ray Actor生命周期管理。这是组合优于继承的典型案例。
两阶段Worker初始化（RayWorkerProc）的设计动机和实现细节，特别是处理外部编排下GPU ID冲突的解决方案。
环境变量传播策略从“白名单”到“默认传播加黑名单”的演变及其背后的设计权衡。
Review讨论中关于监控健壮性、错误处理和代码质量的改进点，这些是编写生产级分布式系统代码的宝贵经验。
此PR不仅是一个功能实现，更揭示了vLLM在分布式执行架构上向更稳定、解耦方向演进的重要趋势。

讨论亮点

Review讨论深度涉及设计、正确性和代码质量。核心讨论点包括：

设计权衡与问题解决：
- 环境变量传播模式：Reviewer指出现有的“白名单”模式（get_env_vars_to_copy）易导致遗漏，建议V2采用更简单的“默认传播，黑名单排除”模式。作者在ray_env_utils.py中采纳了这一建议。
- CUDA_VISIBLE_DEVICES重置的复杂性：Reviewer质疑设置RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES后手动重置CUDA_VISIBLE_DEVICES的必要性。作者解释这是为了支持由外部启动器编排、在单节点部署多引擎的场景，避免GPU ID冲突，并承诺在代码中添加注释说明。
- 是否引入新环境变量：有评论建议使用类似distributed_executor_backend="ray_v2"的CLI参数而非新环境变量。讨论后决定保持现有方案（环境变量开关），以保持CLI接口稳定，并计划在未来版本默认启用V2。
正确性与健壮性：
- Bundle排序与裁剪逻辑：Reviewer对get_bundles_sorted_by_node中先裁剪再排序的逻辑提出疑问，担心可能导致driver节点被排除。作者调整逻辑为先排序再按world_size裁剪，并最终改为直接按world_size迭代，不再依赖裁剪。
- 监控线程静默退出：Reviewer指出监控线程的异常处理会静默退出，导致worker死亡无法被后续检测。作者添加了异常日志记录。
- Worker进程异常日志：Reviewer建议在RayWorkerProc.run中添加异常捕获和日志记录，确保根本原因可见。作者采纳并添加了try-except块。
代码质量与可维护性：
- 初始化顺序：Reviewer指出local_rank应在super().__init__前设置，作者已修正。
- 冗余数据结构和命名：Reviewer指出_ray_actors列表是冗余的，应直接从ray_worker_handles获取。作者移除了该冗余列表。
- Actor命名：Reviewer建议为Actor设置包含TP/PP信息的可读名称以增强Dashboard可观测性。作者新增了build_actor_name函数并应用。
- 错误信息格式：Reviewer建议将异常消息从%s格式改为f-string。作者已修改。
  大多数讨论点已在后续提交中得到解决，未发现悬而未决的重大疑虑。

实现拆解

实现方案围绕新的RayExecutorV2类展开，其继承自MultiprocExecutor以复用其RPC和数据平面，但彻底重写了工作进程启动和监控逻辑。关键改动点如下：

执行器选择逻辑 (vllm/v1/executor/abstract.py)：添加环境变量VLLM_USE_RAY_V2_EXECUTOR_BACKEND作为开关，当distributed_executor_backend="ray"且该变量为真时，使用RayExecutorV2，否则回退到旧的RayDistributedExecutor。
核心执行器实现 (vllm/v1/executor/ray_executor_v2.py)：
- 引入RayWorkerHandle和RayWorkerProc类封装Ray Actor和两阶段初始化逻辑。
- 在_init_executor方法中：
  a. 调用initialize_ray_cluster并设置RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES=1。
  b. 使用get_bundles_sorted_by_node对Placement Group资源包进行排序（driver节点优先），确保rank 0与执行器同节点。
  c. 根据排序结果创建Ray Actor，并通过PlacementGroupSchedulingStrategy进行调度。
  d. 为每个Actor设置环境变量，特别是基于节点聚合GPU ID后手动设置CUDA_VISIBLE_DEVICES。
  e. 调用Actor的initialize_worker完成两阶段初始化，并建立基于MessageQueue的RPC通道。
  - 重写监控线程(_ray_worker_monitor)以监听Ray Actor的健康状态。
    3. 工具函数重构 (vllm/v1/executor/ray_utils.py)：
    - 提取WORKER_SPECIFIC_ENV_VARS为共享常量。
    - 新增get_bundles_sorted_by_node和build_actor_name等实用函数，支持driver-first排序和为Actor赋予包含TP/PP信息的可读名称。
      4. 环境变量处理 (vllm/v1/executor/ray_env_utils.py)：新增get_driver_env_vars函数，采用“默认传播，显式排除”策略，将driver环境变量传递给worker，但排除worker特定变量（如CUDA_VISIBLE_DEVICES）和用户配置的黑名单。
      5. 测试套件：新增了针对执行器初始化、RPC、Placement Group、多节点TCP回退以及端到端集成的完整测试文件（如test_ray_v2_executor.py, test_ray_v2_executor_e2e.py, test_mq_tcp_multinode.py），并在CI配置中（.buildkite/test_areas/distributed.yaml）添加了对应的测试步骤。

文件	模块	状态	重要度
`vllm/v1/executor/ray_executor_v2.py`	v1.executor	added	10.0
`vllm/v1/executor/abstract.py`	v1.executor	modified	8.0
`vllm/v1/executor/ray_utils.py`	v1.executor	modified	7.0
`vllm/v1/executor/ray_env_utils.py`	v1.executor	added	6.0
`tests/distributed/test_ray_v2_executor.py`	tests	added	7.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

RayExecutorV2.__init__ RayExecutorV2._init_executor RayExecutorV2._ray_worker_monitor RayWorkerProc.__init__ RayWorkerProc.initialize_worker RayWorkerProc.run get_bundles_sorted_by_node (in ray_utils.py) get_driver_env_vars (in ray_env_utils.py)

评论区精华

Bundle 排序与裁剪逻辑的正确性 正确性

Reviewer (kouroshHakha) 对 `get_bundles_sorted_by_node` 函数中先按 world_size 裁剪再排序的逻辑提出质疑，担心可能导致 driver 节点被意外排除，从而影响 rank 0 的放置。

结论：作者 (jeffreywang-anyscale) 承认裁剪应在排序之后，并最终修改了实现，改为直接迭代 world_size 来分配 bundle，不再依赖裁剪逻辑，确保了 driver 节点优先。 · 已解决

环境变量传播策略的设计 设计

Reviewer (kouroshHakha) 指出旧的“白名单”模式（`get_env_vars_to_copy`）易导致新环境变量被遗漏，建议 V2 采用更简单的“默认传播，仅黑名单排除”策略。

结论：作者采纳建议，创建了新的 `ray_env_utils.py` 模块，其中 `get_driver_env_vars` 函数实现了该黑名单策略，提高了健壮性和可维护性。 · 已解决

CUDA_VISIBLE_DEVICES 重置复杂性的必要性 设计

Reviewer (kouroshHakha) 质疑设置 `RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES` 后手动聚合 GPU ID 并重置 `CUDA_VISIBLE_DEVICES` 的复杂性，询问是否有更简化的路径。

结论：作者解释这是为了支持由外部启动器管理 Placement Group、并在单节点部署多个 vLLM 引擎的场景。在此场景下，引擎间需协调 GPU ID 以避免冲突，当前方案是必要的。作者同意在代码中添加注释说明。 · 已解决

监控线程的健壮性与错误处理 正确性

Reviewer (kouroshHakha) 指出监控线程 (`_ray_worker_monitor`) 的异常处理会静默退出，导致线程终止后 worker 死亡无法被检测，构成严重风险。

结论：作者采纳建议，在异常处理块中添加了 `logger.exception(...)` 调用，确保任何异常都会记录日志，便于排查。 · 已解决

是否引入新环境变量 vs. 新 CLI 参数 设计

Reviewer (robertgshaw2-redhat) 建议考虑使用新的 `distributed_executor_backend` 值（如 "ray_v2"）而非新增环境变量 `VLLM_USE_RAY_V2_EXECUTOR_BACKEND` 来选择后端。

结论：作者解释当前设计旨在保持 CLI 接口稳定，通过环境变量作为特性标志进行渐进式迁移，并计划在未来版本（v0.20.0）默认启用 V2。此方案得以保留。 · 已解决

风险与影响

技术风险主要存在于新执行器的稳定性和对复杂场景的覆盖：

回归风险：这是全新的执行器后端，尽管复用MultiprocExecutor的通信层，但其与Ray集成的启动、调度、监控逻辑是全新的。如果新的监控线程（_ray_worker_monitor）或两阶段初始化（RayWorkerProc）存在缺陷，可能导致工作进程静默失败或资源泄漏。文件ray_executor_v2.py中的shutdown方法需要确保彻底清理所有Ray Actor。
性能风险：PR正文中的基准测试显示V2后端与MP后端性能基本持平，TPOT（每输出令牌时间）略高于旧Ray后端但TTFT（首令牌时间）稍差。然而，测试仅在特定配置（Qwen3-8B, TP=4, L4）下进行。在新后端下，多节点TCP回退路径（MessageQueue使用ZMQ）、更复杂的Placement Group调度以及Actor监控开销，在更大规模或异构集群中的性能表现尚未充分验证。
兼容性风险：
- 环境变量：新的环境变量传播逻辑（ray_env_utils.py）改变了行为（从白名单到黑名单），虽然旨在减少错误，但如果用户依赖旧有行为（某些变量不被传播），可能产生意外影响。
- 外部编排：对于通过VLLM_RAY_BUNDLE_INDICES外部管理Placement Group的场景，PR后期提交（如c9f0a396）专门修复了相关问题。如果用户有更复杂的自定义编排逻辑，可能仍需适配。
- 特性标志：默认情况下VLLM_USE_RAY_V2_EXECUTOR_BACKEND=0，旧行为得以保留，降低了立即影响。
功能完整性风险：关联Issue #38164明确指出，RayExecutorV2目前不支持EEP（可扩展推理引擎）。这意味着需要EEP功能（如动态调整分布式规模）的用户无法使用V2后端。这是一个已知的、有计划但未完成的功能缺口。

影响范围广泛，涉及用户、系统和团队多个层面：

对用户的影响：
- 透明性：大多数用户短期内无感知，因为新后端默认关闭。有意体验更稳定Ray后端的用户可通过设置环境变量启用。
- 功能选择：需要EEP功能的用户目前必须使用旧Ray后端或等待后续支持。
- 问题排查：新后端的工作进程以Ray Actor形式运行，其日志、监控和调试方式将与之前的进程模式有所不同，用户和运维团队需要适应。
对系统的影响：
- 架构演进：这是分布式执行层的一次重要架构迭代，用更通用、更易理解的MessageQueue+RPC模型替代了特定的Ray Compiled Graph，降低了与特定Ray运行时特性的耦合度，提高了系统整体的可维护性和可移植性。
- 资源管理：更深度地利用Ray的Placement Group进行资源调度和隔离，为未来更灵活的资源调度策略（如混合负载、弹性伸缩）奠定了基础。
对团队的影响：
- 维护负担：如动机所述，旨在显著减轻因Ray编译图后端不稳定带来的维护负担。
- 知识迁移：开发人员需要理解新的RayExecutorV2架构和两阶段初始化等设计模式。
- 测试覆盖：新增的大量测试为分布式执行器的正确性提供了更强保障。

新核心组件依赖外部编排场景性能未全面验证已知功能缺口 (EEP)

关联 Issue

#35848 [RFC]: Revamp Ray Distributed Executor Backend (from Ray team)

#38164 [Feature][Ray]: Support EEP for RayExecutorV2

完整报告

执行摘要

一句话：引入全新的RayExecutorV2，以MessageQueue控制平面替代编译图后端，提升Ray分布式执行器的稳定性和可维护性。
推荐动作：建议所有技术管理者和核心基础设施工程师精读此PR。 对于工程师，重点关注以下设计决策：
1. RayExecutorV2如何通过继承MultiprocExecutor复用通信层，同时重写_init_executor来集成Ray Actor生命周期管理。这是组合优于继承的典型案例。
2. 两阶段Worker初始化（RayWorkerProc）的设计动机和实现细节，特别是处理外部编排下GPU ID冲突的解决方案。
3. 环境变量传播策略从“白名单”到“默认传播加黑名单”的演变及其背后的设计权衡。
4. Review讨论中关于监控健壮性、错误处理和代码质量的改进点，这些是编写生产级分布式系统代码的宝贵经验。
  此PR不仅是一个功能实现，更揭示了vLLM在分布式执行架构上向更稳定、解耦方向演进的重要趋势。

功能与动机

实现拆解

实现方案围绕新的RayExecutorV2类展开，其继承自MultiprocExecutor以复用其RPC和数据平面，但彻底重写了工作进程启动和监控逻辑。关键改动点如下：

执行器选择逻辑 (vllm/v1/executor/abstract.py)：添加环境变量VLLM_USE_RAY_V2_EXECUTOR_BACKEND作为开关，当distributed_executor_backend="ray"且该变量为真时，使用RayExecutorV2，否则回退到旧的RayDistributedExecutor。
核心执行器实现 (vllm/v1/executor/ray_executor_v2.py)：
- 引入RayWorkerHandle和RayWorkerProc类封装Ray Actor和两阶段初始化逻辑。
- 在_init_executor方法中：
  a. 调用initialize_ray_cluster并设置RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES=1。
  b. 使用get_bundles_sorted_by_node对Placement Group资源包进行排序（driver节点优先），确保rank 0与执行器同节点。
  c. 根据排序结果创建Ray Actor，并通过PlacementGroupSchedulingStrategy进行调度。
  d. 为每个Actor设置环境变量，特别是基于节点聚合GPU ID后手动设置CUDA_VISIBLE_DEVICES。
  e. 调用Actor的initialize_worker完成两阶段初始化，并建立基于MessageQueue的RPC通道。
  - 重写监控线程(_ray_worker_monitor)以监听Ray Actor的健康状态。
    3. 工具函数重构 (vllm/v1/executor/ray_utils.py)：
    - 提取WORKER_SPECIFIC_ENV_VARS为共享常量。
    - 新增get_bundles_sorted_by_node和build_actor_name等实用函数，支持driver-first排序和为Actor赋予包含TP/PP信息的可读名称。
      4. 环境变量处理 (vllm/v1/executor/ray_env_utils.py)：新增get_driver_env_vars函数，采用“默认传播，显式排除”策略，将driver环境变量传递给worker，但排除worker特定变量（如CUDA_VISIBLE_DEVICES）和用户配置的黑名单。
      5. 测试套件：新增了针对执行器初始化、RPC、Placement Group、多节点TCP回退以及端到端集成的完整测试文件（如test_ray_v2_executor.py, test_ray_v2_executor_e2e.py, test_mq_tcp_multinode.py），并在CI配置中（.buildkite/test_areas/distributed.yaml）添加了对应的测试步骤。

关键文件：

vllm/v1/executor/ray_executor_v2.py（模块 v1.executor）: 这是PR的核心，实现了全新的RayExecutorV2类，包含工作进程启动、资源调度、监控等所有关键逻辑。
vllm/v1/executor/abstract.py（模块 v1.executor）: 修改了执行器工厂方法get_class，增加了根据环境变量VLLM_USE_RAY_V2_EXECUTOR_BACKEND在Ray新旧后端间切换的逻辑，是启用新功能的入口。
vllm/v1/executor/ray_utils.py（模块 v1.executor）: 重构并新增了多个关键工具函数，如get_bundles_sorted_by_node（驱动节点优先排序）和build_actor_name，这些是RayExecutorV2正确调度和可观测性的基础。
vllm/v1/executor/ray_env_utils.py（模块 v1.executor）: 新增模块，实现了“默认传播，黑名单排除”的环境变量传递策略，是Review讨论中一个重要设计决策的落地。
tests/distributed/test_ray_v2_executor.py（模块 tests）: 新增的核心单元测试文件，覆盖了执行器初始化、TP/PP组合、Placement Group、RPC、健康检查等关键场景，对保障质量至关重要。

关键符号：RayExecutorV2.init, RayExecutorV2._init_executor, RayExecutorV2._ray_worker_monitor, RayWorkerProc.init, RayWorkerProc.initialize_worker, RayWorkerProc.run, get_bundles_sorted_by_node (in ray_utils.py), get_driver_env_vars (in ray_env_utils.py)

评论区精华

Review讨论深度涉及设计、正确性和代码质量。核心讨论点包括：

设计权衡与问题解决：
- 环境变量传播模式：Reviewer指出现有的“白名单”模式（get_env_vars_to_copy）易导致遗漏，建议V2采用更简单的“默认传播，黑名单排除”模式。作者在ray_env_utils.py中采纳了这一建议。
- CUDA_VISIBLE_DEVICES重置的复杂性：Reviewer质疑设置RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES后手动重置CUDA_VISIBLE_DEVICES的必要性。作者解释这是为了支持由外部启动器编排、在单节点部署多引擎的场景，避免GPU ID冲突，并承诺在代码中添加注释说明。
- 是否引入新环境变量：有评论建议使用类似distributed_executor_backend="ray_v2"的CLI参数而非新环境变量。讨论后决定保持现有方案（环境变量开关），以保持CLI接口稳定，并计划在未来版本默认启用V2。
正确性与健壮性：
- Bundle排序与裁剪逻辑：Reviewer对get_bundles_sorted_by_node中先裁剪再排序的逻辑提出疑问，担心可能导致driver节点被排除。作者调整逻辑为先排序再按world_size裁剪，并最终改为直接按world_size迭代，不再依赖裁剪。
- 监控线程静默退出：Reviewer指出监控线程的异常处理会静默退出，导致worker死亡无法被后续检测。作者添加了异常日志记录。
- Worker进程异常日志：Reviewer建议在RayWorkerProc.run中添加异常捕获和日志记录，确保根本原因可见。作者采纳并添加了try-except块。
代码质量与可维护性：
- 初始化顺序：Reviewer指出local_rank应在super().__init__前设置，作者已修正。
- 冗余数据结构和命名：Reviewer指出_ray_actors列表是冗余的，应直接从ray_worker_handles获取。作者移除了该冗余列表。
- Actor命名：Reviewer建议为Actor设置包含TP/PP信息的可读名称以增强Dashboard可观测性。作者新增了build_actor_name函数并应用。
- 错误信息格式：Reviewer建议将异常消息从%s格式改为f-string。作者已修改。
  大多数讨论点已在后续提交中得到解决，未发现悬而未决的重大疑虑。

Bundle排序与裁剪逻辑的正确性 (correctness): 作者 (jeffreywang-anyscale) 承认裁剪应在排序之后，并最终修改了实现，改为直接迭代world_size来分配bundle，不再依赖裁剪逻辑，确保了driver节点优先。
环境变量传播策略的设计 (design): 作者采纳建议，创建了新的ray_env_utils.py模块，其中get_driver_env_vars函数实现了该黑名单策略，提高了健壮性和可维护性。
CUDA_VISIBLE_DEVICES重置复杂性的必要性 (design): 作者解释这是为了支持由外部启动器管理Placement Group、并在单节点部署多个vLLM引擎的场景。在此场景下，引擎间需协调GPU ID以避免冲突，当前方案是必要的。作者同意在代码中添加注释说明。
监控线程的健壮性与错误处理 (correctness): 作者采纳建议，在异常处理块中添加了logger.exception(...)调用，确保任何异常都会记录日志，便于排查。
是否引入新环境变量 vs. 新CLI参数 (design): 作者解释当前设计旨在保持CLI接口稳定，通过环境变量作为特性标志进行渐进式迁移，并计划在未来版本（v0.20.0）默认启用V2。此方案得以保留。

风险与影响

风险：技术风险主要存在于新执行器的稳定性和对复杂场景的覆盖：
1. 回归风险：这是全新的执行器后端，尽管复用MultiprocExecutor的通信层，但其与Ray集成的启动、调度、监控逻辑是全新的。如果新的监控线程（_ray_worker_monitor）或两阶段初始化（RayWorkerProc）存在缺陷，可能导致工作进程静默失败或资源泄漏。文件ray_executor_v2.py中的shutdown方法需要确保彻底清理所有Ray Actor。
2. 性能风险：PR正文中的基准测试显示V2后端与MP后端性能基本持平，TPOT（每输出令牌时间）略高于旧Ray后端但TTFT（首令牌时间）稍差。然而，测试仅在特定配置（Qwen3-8B, TP=4, L4）下进行。在新后端下，多节点TCP回退路径（MessageQueue使用ZMQ）、更复杂的Placement Group调度以及Actor监控开销，在更大规模或异构集群中的性能表现尚未充分验证。
3. 兼容性风险：
  - 环境变量：新的环境变量传播逻辑（ray_env_utils.py）改变了行为（从白名单到黑名单），虽然旨在减少错误，但如果用户依赖旧有行为（某些变量不被传播），可能产生意外影响。
  - 外部编排：对于通过VLLM_RAY_BUNDLE_INDICES外部管理Placement Group的场景，PR后期提交（如c9f0a396）专门修复了相关问题。如果用户有更复杂的自定义编排逻辑，可能仍需适配。
  - 特性标志：默认情况下VLLM_USE_RAY_V2_EXECUTOR_BACKEND=0，旧行为得以保留，降低了立即影响。
4. 功能完整性风险：关联Issue #38164明确指出，RayExecutorV2目前不支持EEP（可扩展推理引擎）。这意味着需要EEP功能（如动态调整分布式规模）的用户无法使用V2后端。这是一个已知的、有计划但未完成的功能缺口。
影响：影响范围广泛，涉及用户、系统和团队多个层面：
1. 对用户的影响：
  - 透明性：大多数用户短期内无感知，因为新后端默认关闭。有意体验更稳定Ray后端的用户可通过设置环境变量启用。
  - 功能选择：需要EEP功能的用户目前必须使用旧Ray后端或等待后续支持。
  - 问题排查：新后端的工作进程以Ray Actor形式运行，其日志、监控和调试方式将与之前的进程模式有所不同，用户和运维团队需要适应。
2. 对系统的影响：
  - 架构演进：这是分布式执行层的一次重要架构迭代，用更通用、更易理解的MessageQueue+RPC模型替代了特定的Ray Compiled Graph，降低了与特定Ray运行时特性的耦合度，提高了系统整体的可维护性和可移植性。
  - 资源管理：更深度地利用Ray的Placement Group进行资源调度和隔离，为未来更灵活的资源调度策略（如混合负载、弹性伸缩）奠定了基础。
3. 对团队的影响：
  - 维护负担：如动机所述，旨在显著减轻因Ray编译图后端不稳定带来的维护负担。
  - 知识迁移：开发人员需要理解新的RayExecutorV2架构和两阶段初始化等设计模式。
  - 测试覆盖：新增的大量测试为分布式执行器的正确性提供了更强保障。
风险标记：新核心组件, 依赖外部编排场景, 性能未全面验证, 已知功能缺口(EEP)

关联脉络

PR #35848 [RFC]: Revamp Ray Distributed Executor Backend (from Ray team): 此PR是当前PR (#36836) 的直接前驱和设计依据。RFC详细阐述了替换当前Ray编译图后端的动机、设计和计划，当前PR正是该RFC的具体实现。
PR #38164 [Feature][Ray]: Support EEP for RayExecutorV2: 此Issue明确指出当前PR引入的RayExecutorV2尚不支持EEP（可扩展推理引擎）功能，并计划在后续工作中实现。这标明了当前PR的功能边界和后续开发方向。
PR #37940 [NIXL][BUG] Fix Triton heterogeneous TP: 同属近期重要变更，涉及分布式注意力后端和KV连接器。虽然功能点不同，但都体现了对分布式执行层正确性和稳定性的持续投入，技术上下文相关。

支持 Prhub ♥

#36836 [Feat][Executor] Introduce RayExecutorV2

执行摘要

引入全新的 RayExecutorV2，以 MessageQueue 控制平面替代编译图后端，提升 Ray 分布式执行器的稳定性和可维护性。

实现拆解

评论区精华

风险与影响

关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论