#24742 Followup fix for Custom AR V2 in non NVL scenarios

原始 PR 作者 b8zhong 合并时间 2026-05-11 07:57 文件变更 1 提交数 1 评论 1 代码增减 +15 / -13

执行摘要

修复非 NVLink 场景下 CUDA graph 捕获崩溃

关联 Issue #24740 报告了非 NVLink 环境下 CUDA graph 捕获阶段的崩溃：AttributeError: 'CustomAllReduceV2' object has no attribute 'obj'。根本原因是 PR #24363 默认启用了 CustomAllReduceV2，但 capture() 方法未处理 disabled=True 的路径，当 NVLink 全 mesh 检查失败时，self.obj 未初始化，导致崩溃。

这是一个高信号、低风险的 bugfix，建议尽快合并并 cherry-pick 到涉及 PR #24363 的版本分支。对于 sglang 的定制通信层开发者，capture() 的 guard 模式值得参考，以确保 future 的类似 disabled 分支保持一致。

讨论亮点

该 PR 仅有一条来自 gemini-code-assist[bot] 的评论，提示配额已耗尽，未涉及实质讨论。ch-wan 直接批准，无 review 评论。变更简单且直接，没有争议或权衡讨论。

实现拆解

在 capture() 开头添加 disabled 守卫：于 python/sglang/srt/distributed/device_communicators/custom_all_reduce_v2.py 的 capture() 方法最前方插入 if self.disabled: yield; return，使得当 CustomAllReduceV2 因 NVLink 不可用而被禁用时，上下文管理器直接通行而不执行任何操作，避免访问未初始化的 self.obj。
移除原 if not self.disabled 外层包装：将原本包裹在 if not self.disabled 内部的图输入注册逻辑（share_graph_inputs、_share_list、register_inputs）提取到无条件的层级。由于第一步已提前返回，正常路径（disabled=False）才会执行这些代码，等效于原来的语义，但结构更清晰。

文件	模块	状态	重要度
`python/sglang/srt/distributed/device_communicators/custom_all_reduce_v2.py`	通信层	modified	6.53

关键源码片段

python/sglang/srt/distributed/device_communicators/custom_all_reduce_v2.py core-logic

唯一变更文件，修复了 `capture()` 方法在 `disabled=True` 时访问未初始化 `self.obj` 的崩溃问题。

# python/sglang/srt/distributed/device_communicators/custom_all_reduce_v2.py
# capture() 上下文管理器，用于 CUDA graph 捕获前后执行

@contextmanager
def capture(self):
    # 关键修复：如果 CustomAllReduceV2 已被禁用（例如 NVLink 不可用），
    # 直接 yield 返回，避免访问未初始化的 self.obj 引发 AttributeError
    if self.disabled:
        yield
        return
    try:
        self.obj.set_cuda_graph_capture(True)
        yield
    finally:
        self.obj.set_cuda_graph_capture(False)
    # 注意：以下代码仅在 self.disabled=False 时执行（因为已提前返回）
    # 不能在图捕获期间调用
    assert (
        torch.cuda.is_current_stream_capturing() == False
    ), "Cannot register graph inputs while capturing CUDA graph"
    pairs = self.obj.share_graph_inputs()
    handles = [handle for _, handle in pairs]
    offsets = [offset for offset, _ in pairs]
    handles_all = self._share_list(handles)
    offsets_all = self._share_list(offsets)
    result = [list(zip(o, h)) for o, h in zip(offsets_all, handles_all)]
    self.obj.register_inputs(result)
    log_info_on_rank0(logger, f"Registering {len(pairs)} cuda graph addresses")

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

回归风险低：变更仅涉及 capture() 方法内部的 guard 位置调整，覆盖了原来遗漏的 disabled=True 分支，不影响正常路径的行为。
无性能影响：新 guard 仅增加一次布尔判断，且仅在 graph capture 阶段调用，非热路径。
无兼容性问题：接口和语义保持不变。

影响范围限于非 NVLink 全 mesh 拓扑的 GPU 配置（如 H20、A100、4090 等）。这些用户原本在 CUDA graph 捕获阶段会遇到崩溃，修复后可正常启用 CustomAllReduceV2（尽管实际禁用）。不影响 NVLink 环境下的功能。

核心路径变更

关联 Issue

#24740 [Bug] AttributeError: 'CustomAllReduceV2' object has no attribute 'obj' during CUDA graph capture when NVLink is unavailable

完整报告

执行摘要

一句话：修复非 NVLink 场景下 CUDA graph 捕获崩溃
推荐动作：这是一个高信号、低风险的 bugfix，建议尽快合并并 cherry-pick 到涉及 PR #24363 的版本分支。对于 sglang 的定制通信层开发者，capture() 的 guard 模式值得参考，以确保 future 的类似 disabled 分支保持一致。

功能与动机

实现拆解

在 capture() 开头添加 disabled 守卫：于 python/sglang/srt/distributed/device_communicators/custom_all_reduce_v2.py 的 capture() 方法最前方插入 if self.disabled: yield; return，使得当 CustomAllReduceV2 因 NVLink 不可用而被禁用时，上下文管理器直接通行而不执行任何操作，避免访问未初始化的 self.obj。
移除原 if not self.disabled 外层包装：将原本包裹在 if not self.disabled 内部的图输入注册逻辑（share_graph_inputs、_share_list、register_inputs）提取到无条件的层级。由于第一步已提前返回，正常路径（disabled=False）才会执行这些代码，等效于原来的语义，但结构更清晰。

关键文件：

python/sglang/srt/distributed/device_communicators/custom_all_reduce_v2.py（模块通信层；类别 source；类型 core-logic）: 唯一变更文件，修复了 capture() 方法在 disabled=True 时访问未初始化 self.obj 的崩溃问题。

关键符号：未识别

关键源码片段

`python/sglang/srt/distributed/device_communicators/custom_all_reduce_v2.py`

唯一变更文件，修复了 capture() 方法在 disabled=True 时访问未初始化 self.obj 的崩溃问题。

# python/sglang/srt/distributed/device_communicators/custom_all_reduce_v2.py
# capture() 上下文管理器，用于 CUDA graph 捕获前后执行

@contextmanager
def capture(self):
    # 关键修复：如果 CustomAllReduceV2 已被禁用（例如 NVLink 不可用），
    # 直接 yield 返回，避免访问未初始化的 self.obj 引发 AttributeError
    if self.disabled:
        yield
        return
    try:
        self.obj.set_cuda_graph_capture(True)
        yield
    finally:
        self.obj.set_cuda_graph_capture(False)
    # 注意：以下代码仅在 self.disabled=False 时执行（因为已提前返回）
    # 不能在图捕获期间调用
    assert (
        torch.cuda.is_current_stream_capturing() == False
    ), "Cannot register graph inputs while capturing CUDA graph"
    pairs = self.obj.share_graph_inputs()
    handles = [handle for _, handle in pairs]
    offsets = [offset for offset, _ in pairs]
    handles_all = self._share_list(handles)
    offsets_all = self._share_list(offsets)
    result = [list(zip(o, h)) for o, h in zip(offsets_all, handles_all)]
    self.obj.register_inputs(result)
    log_info_on_rank0(logger, f"Registering {len(pairs)} cuda graph addresses")

评论区精华

暂无高价值评论线程

风险与影响

风险：
1. 回归风险低：变更仅涉及 capture() 方法内部的 guard 位置调整，覆盖了原来遗漏的 disabled=True 分支，不影响正常路径的行为。
2. 无性能影响：新 guard 仅增加一次布尔判断，且仅在 graph capture 阶段调用，非热路径。
3. 无兼容性问题：接口和语义保持不变。
  - 影响：影响范围限于非 NVLink 全 mesh 拓扑的 GPU 配置（如 H20、A100、4090 等）。这些用户原本在 CUDA graph 捕获阶段会遇到崩溃，修复后可正常启用 CustomAllReduceV2（尽管实际禁用）。不影响 NVLink 环境下的功能。
  - 风险标记：核心路径变更

关联脉络

PR #24363 [CustomAR] Enable CustomAR V2 by default on CUDA: 该 PR 默认启用了 CustomAllReduceV2，但未处理 NVLink 不可用时的 disabled 路径，直接导致了本 PR 修复的崩溃问题。

#24742 Followup fix for Custom AR V2 in non NVL scenarios

执行摘要

修复非 NVLink 场景下 CUDA graph 捕获崩溃

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

完整报告

参与讨论