在 CI 中默认启用异步断言探测
该 PR 值得阅读,尤其是对负责 CI 基础设施和测试策略的工程师。它展示了如何通过环境变量集中管控运行时检查,并在保持零同步开销的前提下扩大验证覆盖。设计上清晰分离了 CUDA/AMD 与 NPU/MUSA 的配置,未来如果 NPU/MUSA 支持 `torch._assert_async`,只需简单添加环境变量即可。
标签列表
聚合结果
在 CI 中默认启用异步断言探测
该 PR 值得阅读,尤其是对负责 CI 基础设施和测试策略的工程师。它展示了如何通过环境变量集中管控运行时检查,并在保持零同步开销的前提下扩大验证覆盖。设计上清晰分离了 CUDA/AMD 与 NPU/MUSA 的配置,未来如果 NPU/MUSA 支持 `torch._assert_async`,只需简单添加环境变量即可。
CI 分区窗口显示为日期范围
小范围基础设施改进,值得合并。建议后续考虑添加日期解析异常保护以增强健壮性。
原始 PR · 作者 OrangeRedeng · 合并时间 2026-06-06 20:06
更新 NPU 文档与 CI/Docker 配置以支持软件版本升级
该 PR 属于常规文档和配置更新,无需要重点关注的技术决策。NPU 相关开发者和用户可阅读了解最新版本要求。
在 CI 中添加 GB300 硬件测试套件并迁移 4-GPU 配置
值得精读,特别是 `test_numa_utils.py` 的重构模式和 `slash_command_handler.py` 中字段传递的设计。展示了如何在不入侵业务代码的前提下扩展 CI 硬件覆盖。对于需要新增 CI runner 的开发者有参考价值。
按 CI run 隔离 CUDA coredump 目录,修复误报
建议合并。该 PR 针对性的修复了 CI 基础设施中的一个实际问题,变更紧凑、逻辑清晰。值得关注的是 producer 和 uploader 之间通过注释保持目录解析逻辑一致的设计,以及通过环境变量 `RUNNER_TEMP` 利用 CI 自带的 per-job 临时目录机制。
删除 DeepSeek V4 发布 Docker 构建工作流
该 PR 简单明确,无需精读。关注点在于确认 DeepSeek V4 的发布是否已完全迁移,避免遗漏。
修正3FS后端测试的CI stage配置
可快速合并,无代码 review 必要。
修复 HiCache 3FS 测试的 CI 配置
建议回退该 PR 的变更,或同步更新 CI 套件配置(如 `.github/workflows/pr-test.yml` 等),确保 `base-b-test-4-gpu-h100` 套件存在。同时,应审查测试是否确实需要 4 GPU 资源,或者是否可以通过其他方式(如增加超时、重试机制)来解决不稳定问题。