启用 Cohere2MoE NVFP4 快速 MoE 路由
值得精读:该 PR 展示了如何通过枚举对齐和参数传递解锁后端能力,是跨模块集成的典型范例。开发者可关注 RoutingMethodType 与 flashinfer 上游的同步策略。
标签列表
聚合结果
启用 Cohere2MoE NVFP4 快速 MoE 路由
值得精读:该 PR 展示了如何通过枚举对齐和参数传递解锁后端能力,是跨模块集成的典型范例。开发者可关注 RoutingMethodType 与 flashinfer 上游的同步策略。
Nemotron 模型推理性能显著提升
值得精读,尤其是 scaling factor 融合与 BF16 路由 GEMM 的设计模式,以及 JIT 激活算子如何统一派发。对于涉及 MoE 量化的团队,可借鉴其条件路由缩放的处理方式。
原始 PR · 作者 kkHuang-amd · 合并时间 2026-06-06 11:18
强制 interleave MoE 布局修复 AMD TP>1 精度崩溃
建议精读。该 PR 展示了如何快速定位硬件后端内核 bug、设计 workaround 并验证精度恢复的完整流程,对于处理类似跨平台兼容性问题有参考价值。同时注意 `.to(torch.int32)` 类的问题在类型敏感性高的系统中很典型。
新增Ideogram4 NVFP4 原生支持
建议阅读此PR以了解如何在SGLang中集成新的扩散模型和量化方案。重点关注bitsandbytes适配器的设计、Comfy布局推断逻辑以及量化线性层的工厂模式。对于review中提出的两个正确性问题,建议在后续迭代中修复。
实验性快速 LoRA 路径:融合 TRT-LLM MoE + 双流重叠,FP8/NVFP4 吞吐提升 1.7x
该 PR 技术含量高,**值得精读**。核心设计(融合 MoE + LoRA 双流重叠、Split-K 融合、JIT 内核生成)为高性能 LoRA 推理提供了范本。Review 过程严格保障默认路径安全,是实验性功能落地的最佳实践。建议团队在后续重构中关注:1) 将 `*_temp` 包合并到正式模块;2) 补充单元测试和 CI 集成;3) 扩展支持更多模型和硬件。
修复 Nemotron NVFP4 混合精度检查点日志错误
建议合并。修复简单明了,防御性编码思路正确,且经过测试验证。值得关注的是 TODO 注释暗示了未来应重构在线量化日志到单独模块,但非当前 PR 范围。
为 multimodal_gen 添加 Ideogram 4 FP8 文生图支持
值得精读。该 PR 展示了在 SGLang 框架中系统性地添加新扩散模型的完整流程,包括配置、模型、pipeline 和测试,尤其是通过继承基类减少重复代码和共享工具函数的设计思路值得学习。
同步遗留文档至 Mintlify 站点
本 PR 为纯文档同步操作,技术复杂度低,但具有重要的维护意义。建议所有文档贡献者阅读此 PR 的 commits 列表以了解如何确保文档一致性。值得关注的决策:被跳过的 PR 清单和原因(避免回退更新的内容)。