将 Model Executor CI 步骤从 MI250 迁移至 MI300
值得关注:这是一个典型的“硬件代际迁移”操作,展示了在 CI 中如何因硬件能力差异(FP8 支持)而调整测试分配,对维护多硬件 CI 的团队有参考价值。
标签列表
聚合结果
将 Model Executor CI 步骤从 MI250 迁移至 MI300
值得关注:这是一个典型的“硬件代际迁移”操作,展示了在 CI 中如何因硬件能力差异(FP8 支持)而调整测试分配,对维护多硬件 CI 的团队有参考价值。
跳过 PyTorch<2.11 时的 unbacked dynamic shapes 测试
该 PR 属于小范围 CI 修复,无需精读。但注释中关于 `shape_id` 和 `mark_unbacked` 的说明对理解 dynamic shapes 的版本依赖有一定价值。
原始 PR · 作者 chaojun-zhang · 合并时间 2026-06-01 19:21
修复XPU上测试音频视频的间歇失败
值得合并。该 PR 修复了 XPU 特定的 CI flake,变更简单且经过审核。对于维护者,建议关注测试 fixture 作用域与隔离性的权衡,但当前方案是合理的。无需深入精读。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-23 12:19
修复 ROCm 上 VllmRunner 连续测试时的 VRAM 泄漏
值得合并,改动简洁且针对性强。建议后续确认 `wait_for_gpu_memory_to_clear` 的超时机制在高负载环境下是否足够。
原始 PR · 作者 zhenwei-intel · 合并时间 2026-05-14 13:13
跳过 XPU CI 中 offload connector 测试
该 PR 为小型 CI 配置修复,无需精读。但可关注关联 PR #36423 的进展,以便及时恢复测试。
原始 PR · 作者 divakar-amd · 合并时间 2026-05-14 07:53
限制 Skywork 模型 transformers 版本上限
作为临时修复,此 PR 快速解决了 CI 稳定问题。长期应关注 transformers 5.x 的兼容性,或推动 Skywork 官方修复其模型初始化。
修复 PyPI 发布脚本使用 uv + Python 3.12
值得精读。该 PR 展示了 CI/CD 脚本中 Python 版本兼容性的处理策略,以及如何利用 uv 工具简化依赖管理并提升确定性。固定版本的做法值得在其它 CI 脚本中推广。
释放流水线注解内联化,提升实时可见性
该 PR 属于基础设施优化,不涉及核心业务逻辑,但可读性和架构清晰度有提升。建议采纳关于脚本失败容忍的建议,以避免潜在的生产问题。对于开发者和运维人员,值得了解新的注解机制,便于后续排查发布问题。