在 CI 中默认启用异步断言探测
该 PR 值得阅读,尤其是对负责 CI 基础设施和测试策略的工程师。它展示了如何通过环境变量集中管控运行时检查,并在保持零同步开销的前提下扩大验证覆盖。设计上清晰分离了 CUDA/AMD 与 NPU/MUSA 的配置,未来如果 NPU/MUSA 支持 `torch._assert_async`,只需简单添加环境变量即可。
标签列表
聚合结果
在 CI 中默认启用异步断言探测
该 PR 值得阅读,尤其是对负责 CI 基础设施和测试策略的工程师。它展示了如何通过环境变量集中管控运行时检查,并在保持零同步开销的前提下扩大验证覆盖。设计上清晰分离了 CUDA/AMD 与 NPU/MUSA 的配置,未来如果 NPU/MUSA 支持 `torch._assert_async`,只需简单添加环境变量即可。
CI 分区窗口显示为日期范围
小范围基础设施改进,值得合并。建议后续考虑添加日期解析异常保护以增强健壮性。
原始 PR · 作者 OrangeRedeng · 合并时间 2026-06-06 20:06
更新 NPU 文档与 CI/Docker 配置以支持软件版本升级
该 PR 属于常规文档和配置更新,无需要重点关注的技术决策。NPU 相关开发者和用户可阅读了解最新版本要求。
在 CI 中添加 GB300 硬件测试套件并迁移 4-GPU 配置
值得精读,特别是 `test_numa_utils.py` 的重构模式和 `slash_command_handler.py` 中字段传递的设计。展示了如何在不入侵业务代码的前提下扩展 CI 硬件覆盖。对于需要新增 CI runner 的开发者有参考价值。
注册 #27338 到 pr_fix_toggle 逆向开关
该 PR 变更简单明了,建议合并。对于关注 EAGLE speculative decoding 和 CUDA graph 稳定性的开发者,可了解该 revert 机制及其对应 PR #27338 的修复内容。
按 CI run 隔离 CUDA coredump 目录,修复误报
建议合并。该 PR 针对性的修复了 CI 基础设施中的一个实际问题,变更紧凑、逻辑清晰。值得关注的是 producer 和 uploader 之间通过注释保持目录解析逻辑一致的设计,以及通过环境变量 `RUNNER_TEMP` 利用 CI 自带的 per-job 临时目录机制。
新增 scripted-runtime 测试框架核心与调度器 IPC 钩子
值得对 scripted-runtime 感兴趣或有复杂调度测试需求的工程师阅读,尤其 ScriptedSchedulerHook 的 IPC 分发和 ScriptedHttpServer 的生命周期管理设计。
原始 PR · 作者 DevashishLal-CB · 合并时间 2026-06-06 07:55
OOT平台插件设备检测修复与导入优化
此 PR 是硬件抽象层 RFC 的第一步落地,值得关注其设计取舍。对于平台集成者,建议精读 `device_mixin.py` 和 `device_config.py` 的变更以了解接口约定。对于核心开发者,注意后续需要清理剩余的延迟导入和硬编码检查。