默认 NVFP4 后端切换为 FlashInfer TRTLLM,支持 swizzled scale 布局
该 PR 值得精读,特别是 scale layout 的处理设计和默认后端的切换策略。建议重点关注 `_swizzled_nvfp4_scales_to_linear` 的实现以及 review 中暴露的潜在风险,未来可能需统一后端间的 scale 处理路径。
SGLang is a high-performance serving framework for large language models and multimodal models.
默认 NVFP4 后端切换为 FlashInfer TRTLLM,支持 swizzled scale 布局
该 PR 值得精读,特别是 scale layout 的处理设计和默认后端的切换策略。建议重点关注 `_swizzled_nvfp4_scales_to_linear` 的实现以及 review 中暴露的潜在风险,未来可能需统一后端间的 scale 处理路径。
修复 FlashInfer allreduce fusion 在 Blackwell 上未启用
建议精读该 PR,特别是兼容性检测的设计模式:通过 `inspect.signature` 动态适配上游 API 变迁。但需注意 `try...except` 未实现的潜在风险,后续若出现 FlashInfer 构建问题可参考 review 意见补充异常处理。
更新 HiSparse 用户指南,支持 DeepSeek V4
建议合并;但后续应确保仅维护单一文档源(`docs_new`),避免未来再次出现不一致。
原始 PR · 作者 ShangmingCai · 合并时间 2026-05-25 17:48
对齐 DSv4 分解测试阈值与测试工具
该 PR 为小范围维护优化,建议合并。值得关注的是 GSM8KMixin 的使用方式,若后续其他测试也采用类似模式,可进一步统一测试基础设施。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-25 17:06
topk==1 时跳过 full-vocab softmax
值得合并的优化: - 逻辑简单清晰,正确性由数学等价性保证。 - 提供了详细的 Profile 数据和吞吐基准,说服力强。 - 建议后续添加针对 `topk==1` 路径的单元测试,防止未来重构引入退化。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-25 16:54
修复 sgl-router Docker 构建缺少 Cargo.lock 的问题
建议精读以了解 Docker 多阶段构建中处理 gitignore 的常见模式。review 中关于 stub 脆弱的评论值得关注,可在后续 PR 中补充警告注释。
原始 PR · 作者 ShangmingCai · 合并时间 2026-05-25 16:51
Mooncake 升至 0.3.11.post1,精简 process_group 调用
该 PR 为常规依赖升级,同时包含一处有意义的逻辑简化。建议合并,但应在合并前确认 `_get_process_group_backend` 的返回类型变化不影响调用者,并考虑后续清理未使用的 `device` 参数。
NPU 平台依赖补齐 torchaudio
建议阅读,NPU 平台维护者可了解依赖补齐的标准模式。不过,建议后续补充 check_env.py 的更新以完善诊断能力。
参与讨论