在 CI 中默认启用异步断言探测
该 PR 值得阅读,尤其是对负责 CI 基础设施和测试策略的工程师。它展示了如何通过环境变量集中管控运行时检查,并在保持零同步开销的前提下扩大验证覆盖。设计上清晰分离了 CUDA/AMD 与 NPU/MUSA 的配置,未来如果 NPU/MUSA 支持 `torch._assert_async`,只需简单添加环境变量即可。
标签列表
聚合结果
在 CI 中默认启用异步断言探测
该 PR 值得阅读,尤其是对负责 CI 基础设施和测试策略的工程师。它展示了如何通过环境变量集中管控运行时检查,并在保持零同步开销的前提下扩大验证覆盖。设计上清晰分离了 CUDA/AMD 与 NPU/MUSA 的配置,未来如果 NPU/MUSA 支持 `torch._assert_async`,只需简单添加环境变量即可。
原始 PR · 作者 alphabetc1 · 合并时间 2026-06-06 20:12
修复 Eagle 采样信息 deepcopy 导入错误
此 PR 改动较小,但修复了一个运行时异常,建议尽快合并。开发者可了解 import 方式对命名空间的影响。
修复KV校验测试因Radix缓存去重导致的flaky问题
值得精读PR body中的根因分析,它揭示了`cache_unfinished_req`与`send_kv_chunk`之间的时序竞态如何导致去重后的槽位被错误释放,是理解PD架构中KV传输、Radix缓存和canary验证三者交互的绝佳案例。
注册 #27338 到 pr_fix_toggle 逆向开关
该 PR 变更简单明了,建议合并。对于关注 EAGLE speculative decoding 和 CUDA graph 稳定性的开发者,可了解该 revert 机制及其对应 PR #27338 的修复内容。
修复 fa3 EAGLE draft-decode page_table scatter OOB
值得合并与精读。本 PR 修复了一个隐蔽的静默内存损坏 bug,展示了 cuda-graph 元数据构造中一个微妙的维度不匹配问题。建议关注:1) `cache_loc` 切片与 `page_size == 1` 分支的对齐设计;2) 始终启用断言作为安全网的做法;3) revert 开关的注册方式,这是一种低成本 A/B 调试基础设施。
测试中繁忙内存检查降级为安静模式
可直接合入,变更简单且意图明确。建议在日后 CI 调试时,若怀疑内存泄漏相关故障,可临时切换回 level 2 获取详细日志。
健康检查失败时触发调度器 py-spy 与 CUDA coredump 诊断
建议所有涉及服务可靠性的团队阅读此 PR,尤其是 `dump_requests_before_crash` 和 `_handle_crash_dump_env` 的逻辑。其模块化设计和环境变量门控策略值得借鉴。
修复 dp-attention e2e comparator 测试 token 对齐失败
值得快速合入。该 PR 体现了对 dp-attention 跨 rank 数据布局的深入理解,修复思路清晰。对于涉及多 GPU 分布式推理的开发者,可借此 PR 了解 comparator 的 token aligner 机制。