Prhub

#22425 [HiSparse]: Add HiSpares-DSA Model's nightly CI

原始 PR 作者 hzh0425 合并时间 2026-04-09 16:00 文件变更 1 提交数 2 评论 5 代码增减 +84 / -0

执行摘要

新增 HiSparse-DSA 模型的夜间 CI 测试,验证 GLM-5-FP8 在 8-GPU H200 上的 HiSparse 功能。

PR body中未明确说明动机,但从标题和测试内容推断,目的是为HiSparse-DSA模型建立持续的集成测试,确保其在特定硬件配置下的功能正确性和稳定性。关联Issue评论显示作者执行了测试并验证通过,表明这是基础设施扩展的一部分。

该PR值得CI/测试维护者精读,关注HiSparse配置参数和资源分配策略。设计决策中,将HiSparse测试集成到现有8-GPU套件是合理选择,但需确保资源配置与实际环境匹配。

讨论亮点

review中gemini-code-assist[bot]指出两个关键问题:

  1. 资源配置不匹配:--tp 8和--dp 8需要64个GPU,但测试套件stage-c-test-8-gpu-h200仅支持8个GPU,建议调整为--tp 4 --dp 2。
  2. 预估时间过长:est_time=720分钟(12小时)过高,建议减少到180-240分钟。作者未直接回应这些评论,但提交历史显示第二个commit修复了lint问题,且CI测试通过,表明资源配置可能已调整或测试环境支持该配置。

实现拆解

实现单一:新增测试文件test/registered/8-gpu-models/test_dsa_models_hisparse.py。该文件定义了一个测试类TestGLM5DPHiSparse,使用GLM-5-FP8模型,配置了8路张量并行(--tp 8)和8路数据并行(--dp 8),启用HiSparse(--enable-hisparse)和相关参数,启动服务器后运行GSM8K评估(500个样本),断言准确率大于0.94。测试注册到stage-c-test-8-gpu-h200夜间套件,预估时间720分钟。

文件 模块 状态 重要度
test/registered/8-gpu-models/test_dsa_models_hisparse.py test added 8.0

关键符号

TestGLM5DPHiSparse.setUpClass TestGLM5DPHiSparse.test_a_gsm8k

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

资源配置不匹配 正确性

gemini-code-assist[bot] 指出 --tp 8 和 --dp 8 需要 64 个 GPU,但测试套件仅支持 8 个 GPU,可能导致测试失败。

结论:作者未直接回应,但 CI 测试通过,暗示配置可能已调整或环境支持。 · 已解决

预估时间优化 性能

gemini-code-assist[bot] 认为 est_time=720 分钟过高,建议减少到 180-240 分钟以提升 CI 效率。

结论:未在讨论中明确修改,但 CI 调度可能已处理。 · unresolved

风险与影响

主要风险:

  1. 资源配置风险:原始配置(tp=8, dp=8)在8-GPU环境可能因资源不足导致测试失败,但CI通过表明风险已缓解。
  2. 性能风险:预估时间720分钟可能影响CI调度效率,但实际测试时间可能较短。
  3. 测试覆盖风险:仅测试GSM8K数据集,覆盖范围有限,可能遗漏其他场景。
  4. 兼容性风险:依赖特定硬件(H200)和模型(GLM-5-FP8),在其他环境可能不适用。

对系统影响:新增夜间测试,扩展CI覆盖到HiSparse-DSA模型,有助于早期发现回归问题。对团队影响:为HiSparse功能提供自动化验证,减少手动测试负担。影响程度中等,主要限于测试基础设施。

资源配置风险 测试覆盖有限

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论