释放NVFP4权重量化中不再使用的源缩放张量
该PR设计清晰,内存收益显著,风险可控,建议合并。值得关注其删除张量的策略和保留`w13_weight_scale_2`/`w2_weight_scale_2`的权衡。
SGLang is a high-performance serving framework for large language models and multimodal models.
释放NVFP4权重量化中不再使用的源缩放张量
该PR设计清晰,内存收益显著,风险可控,建议合并。值得关注其删除张量的策略和保留`w13_weight_scale_2`/`w2_weight_scale_2`的权衡。
原始 PR · 作者 acheamponge · 合并时间 2026-05-13 07:23
新增 Crusoe 托管推理后端
该 PR 设计清晰,适合作为第三方后端集成的参考模式(继承 + LazyImport)。建议合并后补充 CI 可运行的 mock 测试以覆盖回归。
bench_serving 新增 agentic 多消息轮次支持
建议合并。变更小巧清晰,扩展了基准测试能力,且向下兼容。后续可补充针对新格式的单元测试。
修复 draft extend 路由到 decode kernel 导致的非法内存访问
该 PR 作为紧急 bugfix 值得精读,尤其是涉及注意力后端的路由逻辑的开发者。建议在后续优化中评估是否可在特定条件下(如单 batch 且无 IMA 风险)对 draft extend 也使用 decode kernel 以恢复性能。
FlashInfer 0.6.8.post1 升级至 0.6.11,适配新版 API
建议阅读本 PR 作为依赖升级与 API 适配的参考案例,重点关注 flashinfer_comm_fusion.py 中子组传递逻辑的演变以及 fp4_utils.py 中参数化调用方式的变化。
原始 PR · 作者 merrymercy · 合并时间 2026-05-13 05:04
修复 Eagle 投机解码 draft decode 位置错误
建议优先合并。该 PR 修复了一个明显的 off-by-one 错误,逻辑正确,改动量小,风险可控。虽然缺少自动化测试验证,但 PR 作者已通过 debug logging 确认修复。后续应考虑补全 Eagle speculative decoding 的 e2e 测试。
修复 Blackwell 上确定性推理后端顺序错误
该 PR 值得阅读,它揭示了一个因初始化顺序导致的边角 bug,展示了在复杂配置初始化流程中,细节的调用顺序可能引发难以预料的错误。对于需要维护 `__post_init__` 类似初始化流程的开发者,此 PR 是一个良好的警示。
原始 PR · 作者 polisettyvarma · 合并时间 2026-05-13 04:05
修复非NPU设备上 fused_moe 导入失败问题
此PR是必要的bugfix,逻辑简单,适合快速合入。建议开发者注意类似的条件导入模式,避免全局导入导致跨平台问题。
参与讨论