#21625 [CI] [FlashInfer v0.6.7] Use offline quantized checkpoint for MXFP8 Gemm tests

原始 PR 作者 zianglih 合并时间 2026-03-30 13:47 文件变更 1 提交数 3 评论 6 代码增减 +3 / -4

执行摘要

改用离线量化检查点提升 MXFP8 Gemm CI 测试稳定性。

PR body中说明：'MXFP8 Gemm CI is unstable after FlashInfer v0.6.7 update'，并通过基准测试对比显示在线量化路径导致精度下降（例如，从0.84降至0.76），而离线量化保持稳定（约0.84）。目的是解决CI测试的不可靠性，确保量化功能验证更可靠。

建议快速审查并合并，以解决CI不稳定性问题。值得关注的设计决策：使用离线量化检查点避免在线量化路径的不稳定性，这是一种实用解决方案，但未来应考虑优化在线量化以提高通用性。同时，关注Triton测试的性能优化进展。

讨论亮点

review中，gemini-code-assist[bot]指出PR描述中引用的链接 'https://github.com/sgl-project/sglang/pull/19835' 可能存在typo，建议检查以确保文档清晰。在Issue评论中，作者 @zianglih 确认#19835已合并，但Triton测试因PCG捕获时间过长（5-7分钟）被再次禁用，讨论焦点转向性能优化而非功能修复。结论是测试被暂时禁用，待性能优化后恢复。

实现拆解

主要修改了测试文件 test/registered/quant/test_fp8_blockwise_gemm.py：

将全局变量 BF16_MODEL_PATH 重命名为 MXFP8_MODEL_PATH，并更新模型路径为离线量化版本 'zianglih/Qwen3-4B-Instruct-2507-MXFP8'。
在 MXFP8GemmBase.setUpClass 方法中，移除 --quantization mxfp8 参数，因为现在使用预量化的检查点，无需在线量化。
临时禁用 TestMXFP8GemmTriton 测试类，添加 @unittest.skip 装饰器，注释中说明由于PCG捕获时间过长，待后续修复。

文件	模块	状态	重要度
`test/registered/quant/test_fp8_blockwise_gemm.py`	测试 / 量化	modified	5.0

关键符号

MXFP8GemmBase.setUpClass

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

PR 链接 typo 检查 正确性

gemini-code-assist[bot] 指出 PR 描述中链接到 PR #19835 可能不正确，建议验证以确保文档清晰。

结论：Issue 评论确认 #19835 已合并，链接正确，但讨论未明确回应 typo 问题。 · 已解决

Triton 测试 PCG 捕获时间过长 性能

在 Issue 评论中，作者 @zianglih 提到 Triton 测试在 PR #19835 后功能正常，但 PCG 捕获时间过长（5-7 分钟），因此重新禁用测试，讨论转向性能优化需求。

结论：测试被暂时禁用，等待后续性能优化后恢复。 · pending

风险与影响

风险较低：变更仅限于测试配置，使用离线检查点可能引入模型版本依赖，但路径指定为特定版本，风险可控。主要风险是Triton测试被禁用，可能掩盖未来回归问题，但作者说明是由于性能原因临时措施。此外，变更涉及量化测试，需确保离线检查点与在线量化行为一致。

直接影响CI测试套件：提高MXFP8 Gemm测试的稳定性和准确性，确保量化功能验证更可靠，减少误报失败，加速CI周期。间接影响开发流程，提升开发者信心。对用户无直接影响，因为这是内部测试变更。Triton测试的禁用暂时减少了测试覆盖范围，但作者计划后续优化后恢复。

测试覆盖临时减少模型路径依赖

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR将MXFP8 Gemm CI测试从在线量化切换为使用离线量化检查点，以解决FlashInfer v0.6.7更新后测试不稳定的问题，同时临时禁用Triton测试以避免PCG捕获时间过长，从而提高测试可靠性和CI效率。

功能与动机

在FlashInfer v0.6.7更新后，MXFP8 Gemm测试出现精度下降和不稳定（如PR body所示，在线量化路径导致精度从0.84降至0.76）。通过基准测试对比，发现离线量化检查点能提供稳定结果（精度约0.84），因此变更旨在修复CI测试的不可靠性。动机源于维护者 @humansand 的需求，确保量化功能验证的准确性。

实现拆解

主要修改了 test/registered/quant/test_fp8_blockwise_gemm.py 文件：

全局变量变更：将 BF16_MODEL_PATH 重命名为 MXFP8_MODEL_PATH，并更新为离线量化模型路径 'zianglih/Qwen3-4B-Instruct-2507-MXFP8'。
测试配置简化：在 MXFP8GemmBase.setUpClass 方法中，移除 --quantization mxfp8 参数，因为现在使用预量化检查点，无需在线量化步骤。
测试类调整：临时禁用 TestMXFP8GemmTriton 类，通过添加 @unittest.skip 装饰器，注释说明由于PCG捕获时间过长（5-7分钟），待后续修复。

评论区精华

链接正确性检查：gemini-code-assist[bot] 在review评论中指出：'The link to the pull request seems to be broken as PR number 19835 does not exist. This appears to be a typo.' 这引发了对文档准确性的关注。后续Issue评论确认#19835已合并，但typo问题未进一步讨论。
Triton测试性能讨论：在Issue评论中，作者 @zianglih 说明：'TestMXFP8GemmTriton works after https://github.com/sgl-project/sglang/pull/19835 but currently compiling PCG takes 5-7mins, so I disable it again.' 讨论焦点从功能修复转向性能优化，结论是测试被暂时禁用以等待改进。

风险与影响

风险分析：变更风险较低。使用离线检查点可能增加模型版本管理复杂性，但路径明确指定，风险可控；Triton测试被禁用可能暂时减少覆盖范围，但这是临时措施，作者计划优化后恢复。此外，需确保离线量化与在线量化行为一致，避免隐藏回归问题。
影响评估：直接影响CI测试套件，提升MXFP8 Gemm测试的稳定性和精度，减少误报失败，加速开发流程；间接增强团队对量化功能的信心；对最终用户无直接影响，因为是内部测试改进。

关联脉络

本PR与历史PR #19835（'fix cuda graph capturing error in sm120 mxfp8 triton path'）直接相关，后者修复了MXFP8 Triton路径的CUDA图捕获错误。本PR在此基础上优化测试配置，通过使用离线量化检查点应对在线量化路径的不稳定性，体现了对量化功能测试的持续改进。此外，近期PR如 #21634 也涉及测试简化，显示团队在优化CI流程方面的趋势。

#21625 [CI] [FlashInfer v0.6.7] Use offline quantized checkpoint for MXFP8 Gemm tests

执行摘要

改用离线量化检查点提升 MXFP8 Gemm CI 测试稳定性。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论