Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

moe 相关 PR

2026-06-06

#26588 Optimize Gemma4 H200 MoE and extend attention

原始 PR · 作者 BBuf · 合并时间 2026-06-06 14:14

性能优化 重要性 7.16 洞察度 7.00

优化 Gemma4 H200 MoE 与 extend attention 性能

推荐精读。尤其注意 kernel dedup 设计方法和 BF16 精度分析。对于 Gemma4 部署有直接收益;对编写数值稳定的 Triton kernel 有参考价值。

#26733 Nemotron perf changes

原始 PR · 作者 b8zhong · 合并时间 2026-06-06 13:31

性能优化 重要性 8.30 洞察度 7.00

Nemotron 模型推理性能显著提升

值得精读,尤其是 scaling factor 融合与 BF16 路由 GEMM 的设计模式,以及 JIT 激活算子如何统一派发。对于涉及 MoE 量化的团队,可借鉴其条件路由缩放的处理方式。

2026-06-04
2026-06-03

#27049 docs: add DeepSeek-V4 EPLB Waterfill tips

原始 PR · 作者 xutizhou · 合并时间 2026-06-03 15:37

文档 重要性 3.85 洞察度 5.00

新增 DeepSeek-V4 EPLB Waterfill 配置文档

值得精读:该文档总结了 DeepEP Waterfill 的关键参数和约束,对使用 DeepSeek-V4 进行 EP 部署的团队有直接指导意义。设计上明确了实验性特征与兼容性边界,体现了良好的文档实践。

#25655 Feat/add w4a16 moe support to nemotron

原始 PR · 作者 shaunkotek · 合并时间 2026-06-03 13:42

功能 重要性 9.13 洞察度 6.00

支持 Nemotron 模型 NVFP4 权重通过 Marlin W4A16 在 SM80-SM90 上推理

建议精读:该 PR 展示了如何将专有量化格式(NVFP4 ModelOpt)映射到已有 Marlin 内核,包含 scale 转换、非门控 MoE 扩展、多后端路由等设计决策,对于理解 SGLang 的量化抽象层和 MoE 支持有参考价值。关注点:scale 转换的数值正确性、非门控 MoE 的激活函数处理、全局 scale 指数偏移的数学推导。

功能 重要性 6.93 洞察度 4.00

XPU 端为 MoE 门控添加 bias group topk 快速路径

该 PR 功能明确,讨论均已解决,测试已补充,建议合并。值得关注的设计决策是 `num_experts` 上限 256 的设定和 scaling 处理与 CUDA 分支的对称性。