在 CI 中默认启用异步断言探测
该 PR 值得阅读,尤其是对负责 CI 基础设施和测试策略的工程师。它展示了如何通过环境变量集中管控运行时检查,并在保持零同步开销的前提下扩大验证覆盖。设计上清晰分离了 CUDA/AMD 与 NPU/MUSA 的配置,未来如果 NPU/MUSA 支持 `torch._assert_async`,只需简单添加环境变量即可。
标签列表
聚合结果
在 CI 中默认启用异步断言探测
该 PR 值得阅读,尤其是对负责 CI 基础设施和测试策略的工程师。它展示了如何通过环境变量集中管控运行时检查,并在保持零同步开销的前提下扩大验证覆盖。设计上清晰分离了 CUDA/AMD 与 NPU/MUSA 的配置,未来如果 NPU/MUSA 支持 `torch._assert_async`,只需简单添加环境变量即可。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-07 06:40
指数搜索优化 RadixCache.match 减少逐元素比较
值得精读。指数搜索 + 二分查找的模式通用性强,可推广到其他线性扫描场景。PR 对类型兼容性问题处理果断,测试完备,可放心合入。建议后续关注 million-token 级别的实测数据。
eager 前向路径通过 CUDA graph 缓冲注册表路由
值得精读,尤其是 extract_buffer 的 None 携带逻辑和 computed slot 暴露策略,以及如何通过参数化构建函数支持不同前向路径。提供了清晰的注释和单元测试。建议部署者评估 decode 延迟并在需要时启用 SGLANG_EAGER_INPUT_NO_COPY。
扩展EAGLE spec v2树推理支持page>1+topk>1
建议所有涉及speculative decoding的开发者和reviewer精读。关键设计决策包括:孔状布局理由、前缀复制方案、行宽保护与failure模式选择。值得关注的设计模式:用always-on CPU断言代替难诊断的GPU错误,是防守型编程的良好范例。
修复 LingBot-World 相机控制崩溃
值得合并。这是一个短小、精确的 bugfix,修复了阻断性崩溃,且改动量小、风险可控。建议后续补充多 GPU 实时测试。
新增 torch_npu 补丁 API 兼容层并更新调用方
建议 NPU 相关开发者阅读,该 PR 展示了如何平滑处理上游库的 API 漂移,并提供了可复用的兼容函数。单元测试覆盖了三种场景,值得参考。
修复KV校验测试因Radix缓存去重导致的flaky问题
值得精读PR body中的根因分析,它揭示了`cache_unfinished_req`与`send_kv_chunk`之间的时序竞态如何导致去重后的槽位被错误释放,是理解PD架构中KV传输、Radix缓存和canary验证三者交互的绝佳案例。
在 CI 中添加 GB300 硬件测试套件并迁移 4-GPU 配置
值得精读,特别是 `test_numa_utils.py` 的重构模式和 `slash_command_handler.py` 中字段传递的设计。展示了如何在不入侵业务代码的前提下扩展 CI 硬件覆盖。对于需要新增 CI runner 的开发者有参考价值。