修复 sgemm_lora_a_graph_fwd 中 torch.mm() 多余参数导致的 TypeError
PR 虽小,但修复了一个明确的 bug,值得快速合入。对于深入学习 LoRA 或图模式执行的开发者,可以查看该函数理解 torch.mm 的正确用法。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 sgemm_lora_a_graph_fwd 中 torch.mm() 多余参数导致的 TypeError
PR 虽小,但修复了一个明确的 bug,值得快速合入。对于深入学习 LoRA 或图模式执行的开发者,可以查看该函数理解 torch.mm 的正确用法。
原始 PR · 作者 alisonshao · 合并时间 2026-05-13 03:28
临时禁用 flaky 测试 test_update_weights_from_disk
该 PR 为临时缓解措施,技术含量低,但管理上重要。可快速合并;后续应单独开 Issue 跟踪根因修复,避免测试永久禁用。
STANDALONE 投机解码跳过 hidden_states 端到端捕获
值得精读,尤其是 Optional schema 的设计和 None 守卫的分布模式,可作为类似架构变更的参考。重点关注 eagle_info.py 中的 classmethod 返回类型变更和每个 producer 站点的 capture_hidden_mode 三元表达式。
原始 PR · 作者 KrishnanPrash · 合并时间 2026-05-13 01:28
新增基于 ZMQ PUB 的调度器前向传递指标实时推送
值得精读。关键设计决策:1)使用 IPC 而非 TCP 避免端口冲突和监听安全问题;2)复用 DeviceTimer 而非自行实现 GPU 计时,降低维护成本;3)通过 dp_rank 后缀解决多副本 IPC 冲突;4)waiting_queue 中所有请求视为 prefill 确保下游正确进行 TTFT 估计。建议同步关注下游 Dynamo 对 FPM 的消费逻辑。
添加 Laguna-XS.2 模型部署文档与交互式配置生成器
值得快速浏览 cookbook 页面和交互式组件代码,了解 SGLang 文档中部署指南的编写模式,特别是如何将 React 交互组件嵌入 Markdown 文档。对于维护者,需关注安装指南中的版本号随 SGLang 发布周期更新。
修复 SWA 组件 host hit 计数起点错误
该 PR 修复了具体的计数问题,值得关注;建议后续结合 review 反馈评估是否需要进一步优化以处理 device-only 节点场景。
原始 PR · 作者 iridiumine · 合并时间 2026-05-12 17:04
NPU 后端使用 causal_conv1d_update_v2 提升性能
建议精读该 PR 以了解 NPU 后端的性能优化技巧。尤其值得关注 `causal_conv1d_update_v2` 的接口变更和参数命名规范。建议作者后续处理 review 中关于 `conv_states.contiguous()` 的疑虑,确保不会意外复制。
拒绝不兼容的 CUDA 图与 Torch 编译选项组合
该 PR 值得合并。它是一个小而有效的防护措施,防止用户遭遇非明显的性能陷阱。错误信息设计清晰,便于用户快速修正。对于需要深入理解 CUDA graph padding 和 torch.compile 交互的开发者,也值得一读以了解这些选项的内部机制。
参与讨论