← 返回仓库详情

#22425 [HiSparse]: Add HiSpares-DSA Model's nightly CI

sgl-project/sglang · 作者 hzh0425 · 合并时间 2026-04-09 16:00

分析状态已生成

文件变更 1提交数 2 · 评论 5

代码增减 +84 / -0

run-ci test hicache

执行摘要

新增 HiSparse-DSA 模型的夜间 CI 测试，验证 GLM-5-FP8 在 8-GPU H200 上的 HiSparse 功能。

PR body中未明确说明动机，但从标题和测试内容推断，目的是为HiSparse-DSA模型建立持续的集成测试，确保其在特定硬件配置下的功能正确性和稳定性。关联Issue评论显示作者执行了测试并验证通过，表明这是基础设施扩展的一部分。

该PR值得CI/测试维护者精读，关注HiSparse配置参数和资源分配策略。设计决策中，将HiSparse测试集成到现有8-GPU套件是合理选择，但需确保资源配置与实际环境匹配。

讨论亮点

review中gemini-code-assist[bot]指出两个关键问题：1. 资源配置不匹配：--tp 8和--dp 8需要64个GPU，但测试套件stage-c-test-8-gpu-h200仅支持8个GPU，建议调整为--tp 4 --dp 2。2. 预估时间过长：est_time=720分钟（12小时）过高，建议减少到180-240分钟。作者未直接回应这些评论，但提交历史显示第二个commit修复了lint问题，且CI测试通过，表明资源配置可能已调整或测试环境支持该配置。

实现拆解

实现单一：新增测试文件test/registered/8-gpu-models/test_dsa_models_hisparse.py。该文件定义了一个测试类TestGLM5DPHiSparse，使用GLM-5-FP8模型，配置了8路张量并行（--tp 8）和8路数据并行（--dp 8），启用HiSparse（--enable-hisparse）和相关参数，启动服务器后运行GSM8K评估（500个样本），断言准确率大于0.94。测试注册到stage-c-test-8-gpu-h200夜间套件，预估时间720分钟。

文件	模块	状态	重要度
`test/registered/8-gpu-models/test_dsa_models_hisparse.py`	test	added	8.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

TestGLM5DPHiSparse.setUpClass TestGLM5DPHiSparse.test_a_gsm8k

评论区精华

资源配置不匹配 正确性

gemini-code-assist[bot] 指出 --tp 8 和 --dp 8 需要 64 个 GPU，但测试套件仅支持 8 个 GPU，可能导致测试失败。

结论：作者未直接回应，但 CI 测试通过，暗示配置可能已调整或环境支持。 · 已解决

预估时间优化 性能

gemini-code-assist[bot] 认为 est_time=720 分钟过高，建议减少到 180-240 分钟以提升 CI 效率。

结论：未在讨论中明确修改，但 CI 调度可能已处理。 · unresolved

风险与影响

主要风险：1. 资源配置风险：原始配置（tp=8, dp=8）在8-GPU环境可能因资源不足导致测试失败，但CI通过表明风险已缓解。2. 性能风险：预估时间720分钟可能影响CI调度效率，但实际测试时间可能较短。3. 测试覆盖风险：仅测试GSM8K数据集，覆盖范围有限，可能遗漏其他场景。4. 兼容性风险：依赖特定硬件（H200）和模型（GLM-5-FP8），在其他环境可能不适用。

对系统影响：新增夜间测试，扩展CI覆盖到HiSparse-DSA模型，有助于早期发现回归问题。对团队影响：为HiSparse功能提供自动化验证，减少手动测试负担。影响程度中等，主要限于测试基础设施。

资源配置风险测试覆盖有限

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

此PR新增了HiSparse-DSA模型的夜间CI测试，验证GLM-5-FP8在8-GPU H200环境下的HiSparse稀疏注意力功能。测试配置了数据并行和HiSparse参数，并通过GSM8K评估验证准确率。review中发现了资源配置不匹配和预估时间过长的问题，但CI测试已通过，表明风险得到缓解。这是一个中等重要的基础设施扩展，为HiSparse功能提供自动化验证。

功能与动机

PR标题和测试内容表明，动机是为HiSparse-DSA模型建立持续的集成测试，确保其在特定硬件配置（8-GPU H200）下的功能正确性和稳定性。PR body未明确说明动机，但从关联Issue评论中作者执行测试并验证通过的行为推断，这是基础设施扩展的一部分，旨在自动化验证HiSparse功能。

实现拆解

实现集中于单个测试文件，按模块拆解如下：

模块	关键改动	说明
测试注册	`register_cuda_ci(est_time=720, suite="stage-c-test-8-gpu-h200", nightly=True)`	将测试注册到8-GPU H200夜间套件，预估时间720分钟。
服务器配置	`--tp 8 --dp 8 --enable-hisparse --hisparse-config '{"top_k": 2048, ...}'`	配置8路张量并行、8路数据并行，启用HiSparse并设置参数。
评估逻辑	`run_eval` 运行GSM8K评估，500个样本，断言准确率 > 0.94。	验证模型在HiSparse模式下的输出质量。

关键代码逻辑：

other_args = [
    "--trust-remote-code",
    "--tp", "8",
    "--dp", "8",
    "--enable-dp-attention",
    "--enable-hisparse",
    "--hisparse-config", '{"top_k": 2048, "device_buffer_size": 4096, "host_to_device_ratio": 5}',
]

评论区精华

review中gemini-code-assist[bot]提出了两个关键问题：

资源配置不匹配：

"The current configuration specifies --tp 8 and --dp 8, which requires a total of 64 GPUs. However, this test is registered in the stage-c-test-8-gpu-h200 suite, which is intended for 8-GPU environments."

建议调整配置以适应8-GPU环境（如--tp 4 --dp 2）。作者未直接回应，但CI测试通过，暗示配置可能已调整或环境支持。

预估时间优化：

"The est_time=720 (12 hours) seems excessively high for a nightly CI test... Consider reducing this value to a more realistic estimate."

建议减少到180-240分钟以提升CI效率。此问题未在讨论中明确解决。

风险与影响

资源配置风险：原始配置需要64个GPU，而测试套件仅支持8个，可能导致资源不足失败。但CI通过表明风险已缓解（可能配置已调整或环境特殊支持）。
性能风险：预估时间720分钟可能影响CI调度效率，但实际测试时间可能较短，需监控实际运行时间。
测试覆盖风险：仅测试GSM8K数据集，覆盖范围有限，可能遗漏其他推理场景或边缘情况。
影响范围：对系统影响中等，新增夜间测试扩展了CI覆盖；对团队影响正面，自动化验证HiSparse功能减少手动测试负担。

关联脉络

与此PR相关的历史PR包括：

PR #22418：将Runai模型加载测试移至夜间套件，类似CI基础设施调整。
PR #22399：新增GLM-5.1夜间测试，同为扩展大模型测试覆盖。
PR #22353：新增Torch Profiler分析工作流程，涉及测试和性能分析改进。

这些PR共同反映了仓库在扩展测试覆盖、优化CI基础设施方面的持续演进，特别是针对新硬件（如H200）和新功能（如HiSparse）的验证。本PR是这一趋势的一部分，旨在确保HiSparse-DSA模型在特定环境下的稳定性。

支持 Prhub ♥

#22425 [HiSparse]: Add HiSpares-DSA Model's nightly CI

执行摘要

新增 HiSparse-DSA 模型的夜间 CI 测试，验证 GLM-5-FP8 在 8-GPU H200 上的 HiSparse 功能。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论