将 Model Executor CI 步骤从 MI250 迁移至 MI300
值得关注:这是一个典型的“硬件代际迁移”操作,展示了在 CI 中如何因硬件能力差异(FP8 支持)而调整测试分配,对维护多硬件 CI 的团队有参考价值。
标签列表
聚合结果
将 Model Executor CI 步骤从 MI250 迁移至 MI300
值得关注:这是一个典型的“硬件代际迁移”操作,展示了在 CI 中如何因硬件能力差异(FP8 支持)而调整测试分配,对维护多硬件 CI 的团队有参考价值。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-06-03 14:43
分层缓存加速 ROCm Docker 构建
建议 CI 和基础设施团队精读,重点关注构建缓存分层策略、ccache vs sccache 选择、artifact 模式设计。对于仅关注算法和模型的开发者可略过。
启用 ROCm 的 per-token-group 量化内核
值得精读,特别是 `cmake/hipify.py` 的路径处理改进和内核的 warp 适配。设计上使用 `is_cuda_alike` 统一平台检查的做法值得借鉴。但建议在 MI300X 等目标 GPU 上进行充分的回归测试和精度对比。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-06-03 11:27
提前拒绝越界 token ID,稳定 ROCm CI
值得精读。该 PR 展示了早期验证如何防御 GPU 异常,以及如何针对平台差异做最小侵入性 workaround。其中验证插入位置和 platform check 的使用方式可为类似问题提供参考。
对 gfx90a 跳过 FP8 reload 测试
建议精读 `_fp8_reload_unsupported()` 的实现,作为处理平台特定测试跳过的良好范例——它展示了如何在不修改全局平台 API(如 `supports_fp8()`)的前提下,通过本地化函数解决特定硬件的测试问题。
修复 ROCm wvSplitK GEMM 回退测试的边界值
值得合并。虽然变更量小,但确保了测试与代码逻辑的一致性,避免了 CI 的虚假失败。
原始 PR · 作者 pschlan-amd · 合并时间 2026-06-02 22:50
修复 Kimi-Linear 模型 AITER 融合崩溃
建议合并。修复是精确且低风险的,已通过 e2e 验证。未来可考虑在类似属性访问模式中统一使用 `getattr` 回退或定义接口契约。
升级 AITER 到 v0.1.13.post1
建议快速合并此 PR。变更简单且已通过 CI 验证,只需确认升级后的 AITER 版本与现有代码兼容。