Prhub

#42343 [UX] Increase DP Coordinator startup timeout from 30s to 120s

原始 PR 作者 wzhao18 合并时间 2026-05-28 18:31 文件变更 1 提交数 2 评论 1 代码增减 +3 / -2

执行摘要

增加 DP Coordinator 启动超时至 120s

用户 wzhao18 在慢速网络文件系统环境下持续遇到 DPCoordinator 启动超时错误(RuntimeError: DP Coordinator process failed to report ZMQ addresses during startup.),因此提议增加超时时间到 120s,并在错误信息中包含 timeout 值以帮助定位问题。

值得合入并部署。建议后续考虑将超时时间设置为可配置参数,以应对不同环境需求。

讨论亮点

无实质讨论。机器人评论均为自动生成且无反馈;njhill 直接审批通过。

实现拆解

  1. vllm/v1/engine/coordinator.py_wait_for_zmq_addrs 方法中,将硬编码的超时值从 30 改为 120,并赋值给变量 timeout 用于复用。
  2. 更新超时错误消息,增加 f"within timeout={timeout} seconds during startup." 以暴露超时时间。
文件 模块 状态 重要度
vllm/v1/engine/coordinator.py 调度器 modified 4.85

关键符号

_wait_for_zmq_addrs

关键源码片段

vllm/v1/engine/coordinator.py configuration

修改了 DP Coordinator 启动超时时间及相关错误信息,是 PR 中唯一变更的文件。

# vllm/v1/engine/coordinator.pyclass DPCoordinator:
    """..."""
​
    def _wait_for_zmq_addrs(self, zmq_addr_pipe) -> tuple[str, str, str]:
        try:
            timeout = 120 # 从 30s 增加到 120s, 应对慢速网络文件系统
            ready = multiprocessing.connection.wait(
                [zmq_addr_pipe, self.proc.sentinel], timeout=timeout
            )
            if not ready:
                raise RuntimeError(
                    "DP Coordinator process failed to report ZMQ addresses "
                    f"within timeout={timeout} seconds during startup." # 添加超时值到错误信息
                )
            try:
                return zmq_addr_pipe.recv()
            except EOFError:
                raise RuntimeError(
                    "DP Coordinator process failed during startup."
                ) from None
        finally:
            zmq_addr_pipe.close()

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险极低。仅修改了一个超时常量,不影响功能逻辑。可能的影响是:在真正启动失败时,用户需要等待更长时间(120s)才能得到超时错误。

对用户:在慢速网络环境下启动 DP 模式时,超时失败概率降低。对系统:启动延迟从 30s 增加到 120s,但仅影响超时场景。无兼容性问题。

低风险 配置调整

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论