#21318 [Diffusion] Speed up Qwen select01 Triton modulation kernels

原始 PR 作者 BBuf 合并时间 2026-03-25 20:48 文件变更 1 提交数 1 评论 4 代码增减 +32 / -66

执行摘要

优化 Qwen select01 Triton 调制内核，提升扩散模型去噪性能约 2.8%。

PR body指出："This PR keeps the Qwen select01 Triton kernel version that showed a stable end-to-end win in Qwen-Image denoise." 目标是在Qwen-Image去噪中实现稳定的性能优势，避免加载和计算两个调制分支的浪费。

该PR值得精读，特别是对于从事Triton内核优化或扩散模型性能调优的工程师。关注指针选择减少冗余加载的设计决策，以及启动参数调优的经验，这些技巧可应用于其他高性能计算场景。

讨论亮点

review中，gemini-code-assist[bot]评论认为优化显著，通过指针选择减少冗余内存访问，性能提升得到Nsight Compute分析验证，结论为："The changes are well-justified and directly address the goal of speeding up these kernels." mickqian批准了PR。没有出现争议或未解决的疑虑，讨论焦点是性能优化效果。

实现拆解

主要修改文件python/sglang/jit_kernel/diffusion/triton/scale_shift.py中的两个Triton内核函数：_fused_layernorm_scale_shift_gate_select01_kernel和_fused_residual_layernorm_scale_shift_gate_select01_kernel。关键改动包括：

1) 为scale0/1、shift0/1、gate0/1构建指针张量；
2) 使用tl.where(idx, ...)选择指针，每个调制张量只加载选中分支；
3) 固定启动配置为num_warps=4和num_stages=4；
4) 删除未产生稳定增益的实验性代码路径（如标量基础、8w1s、残差仅）。

文件	模块	状态	重要度
`python/sglang/jit_kernel/diffusion/triton/scale_shift.py`	diffusion/triton kernels	modified	8.0

关键符号

_fused_layernorm_scale_shift_gate_select01_kernel _fused_residual_layernorm_scale_shift_gate_select01_kernel

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

性能优化验证 性能

gemini-code-assist[bot] 指出优化通过指针选择减少冗余内存访问，性能提升得到 Nsight Compute 分析验证，并强调了内核延迟和寄存器使用的改进。

结论：优化合理且有效，获得批准，无争议点。 · 已解决

风险与影响

风险较低：

1) 正确性风险：指针选择逻辑依赖idx正确映射，但已有单元测试test_qwen_image_modulation.py覆盖验证；
2) 性能风险：启动参数固定可能对某些硬件配置不最优，但PR中显示在目标工作负载上有效，且优化减少了计算和内存访问；
3) 兼容性风险：变更仅影响特定内核，不影响其他模型或功能。无安全或回归风险证据。

对用户：Qwen-Image去噪推理速度提升约2.8%，端到端延迟减少，改善用户体验。对系统：内核延迟降低19.7%，寄存器使用从96降至72，提高GPU占用率，优化内存层次利用，减少冗余计算。对团队：代码更简洁，移除未使用代码，但需确保变更在CI中持续验证，并可能作为内核优化案例参考。

内核逻辑变更启动参数固定

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：优化Qwen select01 Triton调制内核，提升扩散模型去噪性能约2.8%。
推荐动作：该PR值得精读，特别是对于从事Triton内核优化或扩散模型性能调优的工程师。关注指针选择减少冗余加载的设计决策，以及启动参数调优的经验，这些技巧可应用于其他高性能计算场景。

功能与动机

实现拆解

关键文件：

python/sglang/jit_kernel/diffusion/triton/scale_shift.py（模块 diffusion/triton kernels）: 包含优化的Triton内核函数，直接影响Qwen-Image去噪性能，是本PR唯一修改文件。

关键符号：_fused_layernorm_scale_shift_gate_select01_kernel, _fused_residual_layernorm_scale_shift_gate_select01_kernel

评论区精华

性能优化验证 (performance): 优化合理且有效，获得批准，无争议点。

风险与影响

风险：风险较低：
1) 正确性风险：指针选择逻辑依赖idx正确映射，但已有单元测试test_qwen_image_modulation.py覆盖验证；
2) 性能风险：启动参数固定可能对某些硬件配置不最优，但PR中显示在目标工作负载上有效，且优化减少了计算和内存访问；
3) 兼容性风险：变更仅影响特定内核，不影响其他模型或功能。无安全或回归风险证据。
- 影响：对用户：Qwen-Image去噪推理速度提升约2.8%，端到端延迟减少，改善用户体验。对系统：内核延迟降低19.7%，寄存器使用从96降至72，提高GPU占用率，优化内存层次利用，减少冗余计算。对团队：代码更简洁，移除未使用代码，但需确保变更在CI中持续验证，并可能作为内核优化案例参考。
- 风险标记：内核逻辑变更, 启动参数固定

关联脉络

PR #21323 [Diffusion] Add AKO4ALL kernel optimization skill: 都涉及扩散内核优化，本PR提到使用AKO4ALL框架进行调优，反映了团队标准化内核优化工作流程的趋势。
PR #21091 [diffusion] CI: add performance comparison job in nightly: 与扩散模型性能监控相关，本PR的性能优化成果可通过此类CI job进行自动化追踪和比较。

#21318 [Diffusion] Speed up Qwen select01 Triton modulation kernels

执行摘要

优化 Qwen select01 Triton 调制内核，提升扩散模型去噪性能约 2.8%。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论