#26394 [PD] Fix cross-rank queue divergence by gating metadata readiness before all-reduce
原始 PR · 作者 ShangmingCai · 合并时间 2026-05-26 21:59
修复PD跨rank队列发散导致挂起的问题
建议仔细阅读 utils.py 中 `_apply_metadata_gate` 的设计:通过检查 `bootstrap_room` 而非额外 all-reduce 来同步元数据状态,降低了通信开销,是一个精巧的优化。同时注意 `_commit_transfer_to_req` 中 conditional 从重试转为直接 abort 的决策,明确了前置条件。
参与讨论