#39846 [BugFix] Prevent orphaned process on NCCL destroy
原始 PR · 作者 jeffreywang-anyscale · 合并时间 2026-05-12 03:25
缺陷修复
重要性 6.75
洞察度 6.00
改用 ncclCommAbort 在守护线程中执行,防止不协调关闭时的死锁和孤儿进程
推荐合并。该 PR 解决了生产环境中棘手的死锁问题,设计借鉴了 PyTorch 的成熟实践。建议后续补充超时时间的可配置性及增加单元测试,以覆盖更多边缘场景。