优化 Gemma4 H200 MoE 与 extend attention 性能
推荐精读。尤其注意 kernel dedup 设计方法和 BF16 精度分析。对于 Gemma4 部署有直接收益;对编写数值稳定的 Triton kernel 有参考价值。
标签列表
聚合结果
优化 Gemma4 H200 MoE 与 extend attention 性能
推荐精读。尤其注意 kernel dedup 设计方法和 BF16 精度分析。对于 Gemma4 部署有直接收益;对编写数值稳定的 Triton kernel 有参考价值。
启用 Cohere2MoE NVFP4 快速 MoE 路由
值得精读:该 PR 展示了如何通过枚举对齐和参数传递解锁后端能力,是跨模块集成的典型范例。开发者可关注 RoutingMethodType 与 flashinfer 上游的同步策略。
Nemotron 模型推理性能显著提升
值得精读,尤其是 scaling factor 融合与 BF16 路由 GEMM 的设计模式,以及 JIT 激活算子如何统一派发。对于涉及 MoE 量化的团队,可借鉴其条件路由缩放的处理方式。
修复 Qwen3.5 在 AMD 上 EP 模式下共享专家权重重复累加
该 PR 是 AMD 平台的关键 bugfix,值得精读其根因分析方法和跨后端比较思维。建议后续为 Qwen2MoE 添加针对 EP 缩放系数的单元测试以避免回归。
原始 PR · 作者 whybeyoung · 合并时间 2026-06-03 15:44
修复 SBO 下 DeepGEMM 返回 None 时的解包崩溃
建议精读。变更虽小但揭示了一个重要的配置同步问题,对于涉及 SBO 和 DeepGEMM 的工程师有学习价值。
新增 DeepSeek-V4 EPLB Waterfill 配置文档
值得精读:该文档总结了 DeepEP Waterfill 的关键参数和约束,对使用 DeepSeek-V4 进行 EP 部署的团队有直接指导意义。设计上明确了实验性特征与兼容性边界,体现了良好的文档实践。
原始 PR · 作者 shaunkotek · 合并时间 2026-06-03 13:42
支持 Nemotron 模型 NVFP4 权重通过 Marlin W4A16 在 SM80-SM90 上推理
建议精读:该 PR 展示了如何将专有量化格式(NVFP4 ModelOpt)映射到已有 Marlin 内核,包含 scale 转换、非门控 MoE 扩展、多后端路由等设计决策,对于理解 SGLang 的量化抽象层和 MoE 支持有参考价值。关注点:scale 转换的数值正确性、非门控 MoE 的激活函数处理、全局 scale 指数偏移的数学推导。
XPU 端为 MoE 门控添加 bias group topk 快速路径
该 PR 功能明确,讨论均已解决,测试已补充,建议合并。值得关注的设计决策是 `num_experts` 上限 256 的设定和 scaling 处理与 CUDA 分支的对称性。