#22422 [AMD] Replace triton rotary_emb with aiter rotary_emb for Wan2.2 denoise

sgl-project/sglang · 作者 yichiche · 合并时间 2026-04-10 09:21

分析状态已生成

文件变更 2提交数 2 · 评论 3

代码增减 +55 / -0

amd performance diffusion multimodal run-ci

执行摘要

为 WanVideo 模型在 AMD 平台替换 Triton RoPE 内核为 aiter HIP 内核，提升推理性能。

根据PR body描述，WanVideo模型在AMD平台上使用Triton的rope_cached_thd_positions_2c_fwd内核存在性能问题：每次调用需分配两个新输出张量，且需围绕每次调用进行reshape/view_as操作。相比之下，aiter提供的HIP内核rope_cached_2c_fwd_inplace能以单内核完成k和v的RoPE计算，且支持原位操作，从而减少内存分配和形状转换开销，提升性能。

该PR值得精读，特别是关注其性能优化策略：通过替换底层内核减少内存分配和形状转换开销。设计决策中值得学习的是如何平衡平台特异性优化与代码可维护性——通过环境变量和动态导入实现条件启用。建议工程师在类似优化场景中参考此模式。

讨论亮点

Review中主要讨论了代码导入问题：

HaiShaw和Jackycheng0808均指出初始提交中存在无条件导入aiter模块的问题（try:语句），这可能导致在非HIP平台或aiter不可用时引发导入错误。
解决方案是在utils.py中通过_use_aiter标志控制导入，并在wanvideo.py中仅在_use_aiter为真时导入aiter模块，从而避免无条件导入。该问题在第二次提交中已修复。

实现拆解

实现分为两个关键文件：

python/sglang/multimodal_gen/runtime/models/utils.py：新增_use_aiter标志，基于环境变量SGLANG_USE_AITER和HIP平台检测动态启用aiter。
python/sglang/multimodal_gen/runtime/models/dits/wanvideo.py：在WanVideo模型的两个forward方法中，当_use_aiter为真时，替换原有的_apply_rotary_emb调用为aiter的rope_cached_2c_fwd_inplace内核。具体步骤包括：将query和key张量重塑为sbhd格式，调用HIP内核，再恢复原始形状。

文件	模块	状态	重要度
`python/sglang/multimodal_gen/runtime/models/dits/wanvideo.py`	multimodal_gen/runtime/models	modified	9.0
`python/sglang/multimodal_gen/runtime/models/utils.py`	multimodal_gen/runtime/models	modified	7.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

forward rope_cached_2c_fwd_inplace _use_aiter

评论区精华

无条件导入 aiter 模块的风险 正确性

HaiShaw 和 Jackycheng0808 指出初始提交中无条件导入 aiter 模块（try: 语句）可能导致在非 HIP 平台或 aiter 不可用时引发导入错误。

结论：在第二次提交中修复，改为通过 _use_aiter 标志控制导入，仅在 HIP 平台且环境变量启用时导入 aiter 模块。 · 已解决

风险与影响

风险较低，但需注意：

兼容性风险：新内核依赖aiter库和HIP平台，若环境变量SGLANG_USE_AITER未设置或平台不支持，可能回退到原有Triton路径，但需确保回退逻辑正确。
正确性风险：尽管准确性测试通过（CLIP、SSIM、PSNR、MAD指标均达标），但变更涉及底层内核替换，需确保新内核在不同输入形状和配置下的行为与原有实现一致。
性能风险：内核级基准测试显示性能提升，但端到端改进仅0.5%，可能受其他瓶颈限制，实际收益需在生产环境中验证。

影响范围有限但重要：

用户影响：AMD平台用户在使用WanVideo模型进行视频去噪时，将获得轻微的性能提升（约0.5%端到端加速），且功能正确性保持不变。
系统影响：减少内存分配和内核调用次数，可能降低内存碎片和调度开销，提升系统效率。
团队影响：展示了在AMD平台上优化多模态模型性能的持续努力，与近期AMD相关PR（如#22424、#22329）形成协同。

平台依赖优化内核替换风险

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR将WanVideo模型在AMD平台上的RoPE（旋转位置编码）实现从Triton内核替换为aiter HIP内核，通过减少内存分配和形状转换开销，实现内核级约40%的性能提升，端到端去噪时间减少约0.5%。变更已通过准确性测试验证，风险较低，是AMD平台多模态模型性能优化的典型案例。

功能与动机

为什么做？ 原Triton实现rope_cached_thd_positions_2c_fwd每次调用需分配两个新输出张量，并需进行reshape/view_as操作，导致性能开销。aiter HIP内核rope_cached_2c_fwd_inplace能以单内核完成k和v的RoPE计算，且支持原位操作，从而优化内存使用和计算效率。

解决什么问题？ 提升WanVideo模型在AMD平台上的推理性能，减少去噪步骤的延迟。PR body中提供了详细的基准测试数据：内核级时间从2,922.2 μs降至1,334.6 μs，端到端去噪时间从115.14秒降至114.68秒。

实现拆解

实现涉及两个文件的关键改动：

配置层 (python/sglang/multimodal_gen/runtime/models/utils.py):
python _use_aiter = get_bool_env_var("SGLANG_USE_AITER") and _is_hip
新增_use_aiter标志，基于环境变量和HIP平台检测动态启用aiter优化。
核心逻辑层 (python/sglang/multimodal_gen/runtime/models/dits/wanvideo.py):
- 在forward方法中，当_use_aiter为真时，替换原有_apply_rotary_emb调用。
- 关键步骤：
  python q_sbhd = query.view(num_tokens, 1, query_shape[-2], query_shape[-1]) k_sbhd = key.view(num_tokens, 1, key_shape[-2], key_shape[-1]) rope_cached_2c_fwd_inplace(q_sbhd, k_sbhd, cos_sbhd, sin_sbhd, ...)
  将张量重塑为sbhd格式后调用HIP内核，再恢复原始形状。

评论区精华

Review中唯一但关键的讨论围绕导入安全性展开：

HaiShaw: "Please not to do conditionless aiter import, do within _is_hip."
Jackycheng0808: "Remove the unconditional aiter import; import it only when use_aiter is enabled..."

核心洞察：初始提交使用try:无条件导入aiter模块，可能在非HIP环境引发错误。通过将导入移至_use_aiter条件内，确保平台兼容性。这体现了在平台特异性优化中维护代码健壮性的最佳实践。

风险与影响

风险：

兼容性：依赖aiter库和HIP平台，若环境配置不当可能回退到原有路径，需确保回退逻辑正确。
正确性：尽管准确性测试通过（CLIP均值0.9899、SSIM均值0.8657等指标达标），但内核替换需确保边界情况处理一致。
性能收益：端到端改进仅0.5%，可能受其他瓶颈限制，实际收益需生产验证。

影响：

用户：AMD平台用户获得轻微性能提升，功能不变。
系统：减少内存分配和内核调用，潜在降低系统开销。
团队：延续AMD优化脉络，与近期PR（如#22424的LayerNorm优化）形成技术协同。

关联脉络

本PR是AMD平台性能优化系列的一部分：

#22424：使用aiter CK layernorm2d减少NSA索引器内核启动，与本PR同为内核替换优化。
#22329：为AMD MORI-EP新增环境变量，与本PR共享通过环境变量控制平台特性的模式。
#22089：为Qwen3-ASR添加流式语音识别，反映多模态领域的并行投入。

演进趋势：sglang项目正持续深化平台特异性优化（尤其是AMD），通过内核级替换（Triton→aiter/HIP）提升性能，同时注重通过环境变量和条件导入保持代码可维护性。

支持 Prhub ♥

#22422 [AMD] Replace triton rotary_emb with aiter rotary_emb for Wan2.2 denoise

执行摘要

为 WanVideo 模型在 AMD 平台替换 Triton RoPE 内核为 aiter HIP 内核，提升推理性能。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论