#23611 [AMD] Optimize MiniMax-M2.5 - use aiter biased_grouped_topk for sigmoid scoring in MoE routing
原始 PR · 作者 yctseng0211 · 合并时间 2026-04-25 13:18
AMD MoE routing 使用 aiter 内核,性能提升 35%
建议批准并合并,性能提升明显且经过充分验证,代码改动小、风险可控。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 yctseng0211 · 合并时间 2026-04-25 13:18
AMD MoE routing 使用 aiter 内核,性能提升 35%
建议批准并合并,性能提升明显且经过充分验证,代码改动小、风险可控。
权重更新路径跳过 torch.cuda.empty_cache()
建议精读。该 PR 展示了如何通过细粒度控制同步 CUDA 操作来优化性能,值得关注的设计决策是:将 `torch.cuda.empty_cache()` 从 flush 路径中分离,而不是全局移除,保持了灵活性。
GB300 DeepSeek-V4 低延迟与平衡配方验证通过
此 PR 为纯粹的文档更新,无技术复杂性。推荐相关团队(特别是 DeepSeek 模型部署的文档维护者)快速合并。
标记 GB300 上 DeepSeek-V4 CP/PD 配方验证通过
该 PR 为文档维护,建议合并。可关注后续是否需扩展至其他硬件或配方。
标记 B200/H200 上 DeepSeek-V4 多部署方案验证通过
该 PR 是典型的文档状态更新,无需精读。但其中的 `TBD_RECIPES` 机制值得注意:它将“未提供”与“未验证”两种状态区分开来,避免未提供的配方输出被注释掉的无效命令,提升了用户体验。如果团队需要维护类似的配置清单式文档,可借鉴此模式。
DeepSeek-V4 文档添加 base model 环境变量说明
可快速合并。文档变更简单且清晰,无需进一步审核。
为 Nemotron-Nano-VL 模型添加 Parakeet 音频编码器与动态分辨率
**值得精读**:动态分辨率预算算法和视频 tubelet 压缩的设计具有良好的通用性,可复用于其他多模态模型。建议关注: 1. `compute_dynamic_image_size` 中的 budget 调整逻辑(`factor = sqrt(budget/native_patches)`)确保了宽高比保持; 2. `forward_video` 中的 tubelet 分组与 linear embedder 避免了额外的时序模型,是一种轻量方案; 3. `pad_input_ids` 对 audio 和 visual 的分离处理保证了多模态数据正确填充。 变更整体质量较高,但应尽快补充单元测试覆盖动态分支和音频路径。
原始 PR · 作者 zhendonghua · 合并时间 2026-04-25 09:35
新增 Qwen3.5-397B MoE Triton 调优配置
建议合并。该 PR 为纯增量配置,无风险,性能提升明确。值得关注的是 SGLang 的 MoE 调优框架可以自动加载此类配置,为未来模型适配提供良好范例。
参与讨论