#22274 [AMD] CI Job Monitor: fix queue time, utilization, and summary metrics
作者 bingxche · 合并时间 2026-04-17 13:03
修复CI任务监控脚本中的队列时间、利用率和摘要指标计算错误。
对于负责CI基础设施或监控的工程师,值得精读以了解如何正确处理GitHub Actions API数据并优化监控脚本;重点关注使用runner_name作为状态区分器的设计决策和参数化时间窗口的可配置性改进。
标签列表
聚合结果
作者 bingxche · 合并时间 2026-04-17 13:03
修复CI任务监控脚本中的队列时间、利用率和摘要指标计算错误。
对于负责CI基础设施或监控的工程师,值得精读以了解如何正确处理GitHub Actions API数据并优化监控脚本;重点关注使用runner_name作为状态区分器的设计决策和参数化时间窗口的可配置性改进。
作者 sglang-bot · 合并时间 2026-04-11 09:15
自动化更新250个CI测试文件的估计时间值,优化负载均衡算法准确性。
该PR无需精读,除非您负责CI基础设施、测试调度优化或关注自动化流程。可快速浏览以了解est_time更新机制,但无重要设计决策需深入分析。
作者 ch-wan · 合并时间 2026-04-11 08:54
修复CI测试时间估算脚本,按后端硬件区分时间统计,避免跨后端数据污染。
该PR虽小但展示了CI基础设施中一个重要的数据隔离问题。建议精读以理解:1) 如何通过数据结构设计避免数据污染;2) 正则表达式在配置更新中的精确匹配技巧。对于负责CI维护的工程师,这是值得参考的修复模式。
作者 ch-wan · 合并时间 2026-04-11 07:58
修复CI测试时间估算脚本,按测试套件而非后端硬件区分时间统计。
该PR值得CI/基础设施维护者精读,展示了如何从CI日志中提取和关联元数据以优化资源调度。关注点:1. job_name_to_suite函数的设计如何平衡灵活性与鲁棒性。2. 从backend到suite的键变更如何影响时间数据聚合粒度。
作者 csahithi · 合并时间 2026-04-11 06:12
新增GB200集群夜间性能回归测试管道,监控DeepSeek-R1推理基准。
该PR主要涉及CI基础设施,值得团队负责CI的工程师精读,以学习Slurm集成和自动化测试设计。对于核心开发人员,关注配置管理和结果处理部分,但变更对核心代码无直接影响。
作者 ch-wan · 合并时间 2026-04-11 06:03
添加每周工作流自动化更新CI测试估计时间,优化负载均衡。
该PR值得精读,特别是脚本中的日志解析、中位数计算和正则表达式更新逻辑,这些设计决策展示了CI自动化的最佳实践;建议关注GitHub API集成和错误处理部分,以了解如何稳健处理外部数据源。
作者 Fridge003 · 合并时间 2026-04-03 18:23
修复 aarch64 内核发布构建失败,优化 wheel 重命名脚本的 Python 路径。
建议工程师在修改构建脚本时关注此类缓存管理和路径问题,此 PR 提供了处理 Docker buildx 构建器状态和 Python 环境隔离的实用模式,值得参考以提升 CI 健壮性。
作者 hnyls2002 · 合并时间 2026-04-01 19:26
修复H200 GPU上会话控制测试的CI稳定性,通过继承CustomTestCase并禁用CUDA图优化。
该PR值得快速浏览,重点关注其如何通过禁用CUDA图优化解决硬件特定数值差异问题。对于涉及会话控制或CUDA图优化的测试,可借鉴此方法确保计算路径一致性。