#35078 Bump actions/stale from 10.1.1 to 10.3.0
原始 PR · 作者 dependabot[bot] · 合并时间 2026-06-04 05:14
Bump actions/stale 到 v10.3.0
该 PR 为常规依赖升级,无需特别关注。
标签列表
聚合结果
原始 PR · 作者 dependabot[bot] · 合并时间 2026-06-04 05:14
Bump actions/stale 到 v10.3.0
该 PR 为常规依赖升级,无需特别关注。
将 Model Executor CI 步骤从 MI250 迁移至 MI300
值得关注:这是一个典型的“硬件代际迁移”操作,展示了在 CI 中如何因硬件能力差异(FP8 支持)而调整测试分配,对维护多硬件 CI 的团队有参考价值。
原始 PR · 作者 cleonard530 · 合并时间 2026-06-04 00:29
迁移四组 CUDA 内核到 libtorch stable ABI
值得精读,特别是 stable ABI 适配的模式(如使用 STD_TORCH_CHECK、STABLE_TORCH_LIBRARY_FRAGMENT 和 TORCH_BOX 宏)。对于贡献者,了解这些模式有助于参与后续迁移步骤。设计上保留 ROCm 专用 QuickReduce 在 legacy 是一个透明决策,需关注后续迁移计划。
原始 PR · 作者 pschlan-amd · 合并时间 2026-06-04 00:09
优雅处理 spinloop 扩展加载失败
简单且必要的健壮性改进,值得快速合并。日志系统使用的规范值得其他开发者参考。
修复 LoRA 加载异常处理路径
建议合入,该 PR 修复了 LoRA 加载失败时的异常处理路径,避免内部错误暴露。虽无测试配套,但逻辑简单且改动量小,风险可控。未来可考虑补充测试用例覆盖异常路径。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-06-03 14:43
分层缓存加速 ROCm Docker 构建
建议 CI 和基础设施团队精读,重点关注构建缓存分层策略、ccache vs sccache 选择、artifact 模式设计。对于仅关注算法和模型的开发者可略过。
启用 ROCm 的 per-token-group 量化内核
值得精读,特别是 `cmake/hipify.py` 的路径处理改进和内核的 warp 适配。设计上使用 `is_cuda_alike` 统一平台检查的做法值得借鉴。但建议在 MI300X 等目标 GPU 上进行充分的回归测试和精度对比。
修复 parser 测试与 CI 触发路径
建议 PR 阅读者关注测试与 CI 触发路径的一致性,类似的源文件-测试触发关系应在添加新模块时一并配置。