禁用 Gemma4 MTP 26B-A4B extra 测试
该 PR 为一次标准的 CI 测试禁用操作,变更简单明确,无需精读。
SGLang is a high-performance serving framework for large language models and multimodal models.
禁用 Gemma4 MTP 26B-A4B extra 测试
该 PR 为一次标准的 CI 测试禁用操作,变更简单明确,无需精读。
升级 sgl-deep-gemm 依赖至 0.1.2
可快速合并,无需深入 review。
原始 PR · 作者 hanming-lu · 合并时间 2026-06-03 04:25
修复 DP 下 FlashInfer workspace 及 set_dp_buffer_len
值得精读,特别是 DP buffer 管理模式的统一方式。建议关注 set_dp_buffer_len 的签名扩展和 global_num_tokens_cpu 的传递机制,可能为后续 DP buffer 重构提供基础。
修复 Mamba COW 路径 SWA 锁误释放
强烈建议阅读此 PR,它展示了一个易忽略的锁上下文传递问题,属于典型的并发 bug 模式。设计上,lock_ref 的 inc/dec 需要严格配对且携带边界信息,对理解 SGLang 缓存系统的锁模型很有帮助。建议作者补充单元测试,验证 CoW 路径下锁计数的正确性。
Engine generate API 新增 require_reasoning 参数
此 PR 是简单的参数透传,阅读价值有限,但可作为 API 扩展模式的参考。建议后续补充单元测试和文档。
引入 3-method ABC 重构注意力初始化契约,移除 DSV4 side channel
建议精读 `base_attn_backend.py` 的 ABC 定义和 DSV4 的 `init_forward_metadata_in_graph` 实现,体会如何通过明确分层消除隐式 side channel。对于正在开发或维护注意力协议的工程师,此 PR 的设计决策(in_capture 标志、in-graph 专属方法、SimpleNamespace replay 视图)是值得参考的模式。但阅读时应注意 PR 经历了大量提交迭代,早期实现与最终合并版本差异较大,建议直接阅读 HEAD。
使用 NIXL prep+make API 优化 KV 传输性能
该 PR 是性能优化的典型范例,值得 PD 分解和 GPU 通信相关团队精读。建议在生产部署前充分测试大规模请求场景,并监控内存使用。同时关注 NIXL 库版本兼容性。
放宽 Mamba 缓存 KL 阈值 0.003 → 0.005
该 PR 是典型的测试阈值微调,无架构或逻辑变更,仅需了解。对于关注 CI 测试稳定性的团队值得注意。
参与讨论