Prhub

#21343 [Fix] Fix trtllm fp4 moe kernel not found error

原始 PR 作者 Fridge003 合并时间 2026-03-25 07:38 文件变更 1 提交数 1 评论 4 代码增减 +2 / -10

执行摘要

修复 FP4 MoE 内核导入错误,确保 CI 测试通过。

Motivation链接指向PR 21330的CI测试日志(https://github.com/sgl-project/sglang/actions/runs/23512497713/job/68437804154?pr=21330#step:6:3087),显示测试失败,具体为trtllm fp4 moe kernel not found错误,需修复以确保量化功能正常。

此PR为小型bugfix,工程师可快速检查导入逻辑变更,无需深度精读;但可关注动态导入对性能的潜在影响。

讨论亮点

无review评论。变更直接由作者Fridge003合并,未触发讨论。

实现拆解

修改文件python/sglang/srt/layers/moe/fused_moe_triton/layer.py:删除了全局导入检查逻辑(第79-85行),将import trtllm_fp4_block_scale_moe移到forward_impl函数内部(第1321行),确保在运行时动态导入以处理依赖。

文件 模块 状态 重要度
python/sglang/srt/layers/moe/fused_moe_triton/layer.py srt/layers/moe modified 3.0

关键符号

forward_impl

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低:导入时机变化可能导致轻微性能开销(每次调用forward_impl时导入),且若导入失败,assert语句可能引发运行时错误;但变更范围小,影响有限。

修复CI测试失败,确保FP4量化MoE内核能被正确加载,对用户无直接影响,但维持系统稳定性并支持相关量化功能。

导入时机变化 潜在运行时导入失败

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论