Prhub

#24004 fix(moe): relocate orphan tuned configs after #23019

原始 PR 作者 Wen-xuan-Xu 合并时间 2026-04-29 17:00 文件变更 35 提交数 2 评论 2 代码增减 +5 / -5

执行摘要

迁移 33 个 MoE 调优配置到正确路径,修复运行时未加载的问题

由于 #23019 移动了 MoE 配置加载器,后续 PR 无意中将调优配置添加到了旧的 fused_moe_triton/ 目录,运行时加载器使用 os.path.dirname 锚定自身位置,因此从未读取这些配置,回退到 get_default_config(),导致实际生效的调优配置丢失。

尽快合入,修复内容清晰且低风险。建议在合入后验证 CI 中相关 MoE kernel 针对受影响设备的 benchmark,确认加速比恢复。也可借此机会统一配置放置流程,在 README 添加自动化校验。

讨论亮点

代码审查者 Qiaolin-Yu 仅评论 'nice catch',表示认可此修复。无其他讨论或争议。

实现拆解

  1. 移动 33 个 JSON 调优配置:使用 git-mv 将 fused_moe_triton/configs/triton_3_5_1/ 和 triton_3_6_0/ 下的 33 个配置文件移动到 moe_runner/triton_utils/configs/ 对应子目录,文件内容不变。覆盖 E=32/64/192 等多组配置,适配 H100、B200、MI325X、H20、H20-3e 等 GPU。
  2. 更新 tuning README:在 benchmark/kernels/fused_moe_triton/README.md 中修正了配置路径指向,避免后续贡献者再次误放。
  3. 无代码变更:不影响任何运行时逻辑,仅修复文件位置。
文件 模块 状态 重要度
python/sglang/srt/layers/moe/moe_runner/triton_utils/configs/triton_3_5_1/E=192,N=192,device_name=NVIDIA_B200,dtype=fp8_w8a8.json MoE 配置 renamed 2.88
python/sglang/srt/layers/moe/moe_runner/triton_utils/configs/triton_3_5_1/E=192,N=192,device_name=NVIDIA_H20,dtype=fp8_w8a8.json MoE 配置 renamed 2.88
benchmark/kernels/fused_moe_triton/README.md 文档 modified 2.0

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

审查者认可修复 other

Qiaolin-Yu 在审核时仅评论 'nice catch',表示认同该修复。

结论:无额外修改,合并。 · 已解决

风险与影响

风险极低。所有配置内容未经修改,仅变更文件路径;运行时加载器基于文件自身位置搜索 configs/ 目录,移动后配置即可被正常加载。若新路径下存在同名校验规则(如 JSON schema),可能需确认兼容性,但此处仅是文件移动,格式完全一致。

直接影响使用 MoE 且涉及 LFM2(E=32/64)或 Hy3 preview(E=192)模型的用户,使其调优配置生效,恢复预期性能;对非相关模型无影响。对系统稳定性无负面作用,开发者日后添加新配置需注意放置到 moe_runner/triton_utils/configs/ 下。

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论