修复 draft extend 路由到 decode kernel 导致的非法内存访问
该 PR 作为紧急 bugfix 值得精读,尤其是涉及注意力后端的路由逻辑的开发者。建议在后续优化中评估是否可在特定条件下(如单 batch 且无 IMA 风险)对 draft extend 也使用 decode kernel 以恢复性能。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 draft extend 路由到 decode kernel 导致的非法内存访问
该 PR 作为紧急 bugfix 值得精读,尤其是涉及注意力后端的路由逻辑的开发者。建议在后续优化中评估是否可在特定条件下(如单 batch 且无 IMA 风险)对 draft extend 也使用 decode kernel 以恢复性能。
FlashInfer 0.6.8.post1 升级至 0.6.11,适配新版 API
建议阅读本 PR 作为依赖升级与 API 适配的参考案例,重点关注 flashinfer_comm_fusion.py 中子组传递逻辑的演变以及 fp4_utils.py 中参数化调用方式的变化。
原始 PR · 作者 merrymercy · 合并时间 2026-05-13 05:04
修复 Eagle 投机解码 draft decode 位置错误
建议优先合并。该 PR 修复了一个明显的 off-by-one 错误,逻辑正确,改动量小,风险可控。虽然缺少自动化测试验证,但 PR 作者已通过 debug logging 确认修复。后续应考虑补全 Eagle speculative decoding 的 e2e 测试。
修复 Blackwell 上确定性推理后端顺序错误
该 PR 值得阅读,它揭示了一个因初始化顺序导致的边角 bug,展示了在复杂配置初始化流程中,细节的调用顺序可能引发难以预料的错误。对于需要维护 `__post_init__` 类似初始化流程的开发者,此 PR 是一个良好的警示。
原始 PR · 作者 polisettyvarma · 合并时间 2026-05-13 04:05
修复非NPU设备上 fused_moe 导入失败问题
此PR是必要的bugfix,逻辑简单,适合快速合入。建议开发者注意类似的条件导入模式,避免全局导入导致跨平台问题。
修复 sgemm_lora_a_graph_fwd 中 torch.mm() 多余参数导致的 TypeError
PR 虽小,但修复了一个明确的 bug,值得快速合入。对于深入学习 LoRA 或图模式执行的开发者,可以查看该函数理解 torch.mm 的正确用法。
原始 PR · 作者 alisonshao · 合并时间 2026-05-13 03:28
临时禁用 flaky 测试 test_update_weights_from_disk
该 PR 为临时缓解措施,技术含量低,但管理上重要。可快速合并;后续应单独开 Issue 跟踪根因修复,避免测试永久禁用。
STANDALONE 投机解码跳过 hidden_states 端到端捕获
值得精读,尤其是 Optional schema 的设计和 None 守卫的分布模式,可作为类似架构变更的参考。重点关注 eagle_info.py 中的 classmethod 返回类型变更和每个 producer 站点的 capture_hidden_mode 三元表达式。
参与讨论