支持 Gemma3/4 模型与 Eagle3 推测解码
该 PR 值得精读,特别是 `_shard_weight` 的实现解决了 TP 环境下 Embedding 共享的关键问题,`layers_to_capture` 的偏移设计也值得借鉴。对于需要将新模型接入 Eagle3 的开发者,可直接复用 `set_eagle3_layers_to_capture` 和 `get_embed_and_head` 等接口。建议在合并后尽快补充测试覆盖捕获路径和分片逻辑。
SGLang is a high-performance serving framework for large language models and multimodal models.
支持 Gemma3/4 模型与 Eagle3 推测解码
该 PR 值得精读,特别是 `_shard_weight` 的实现解决了 TP 环境下 Embedding 共享的关键问题,`layers_to_capture` 的偏移设计也值得借鉴。对于需要将新模型接入 Eagle3 的开发者,可直接复用 `set_eagle3_layers_to_capture` 和 `get_embed_and_head` 等接口。建议在合并后尽快补充测试覆盖捕获路径和分片逻辑。
修复 MTP 场景下 Radix Cache 越界崩溃
建议快速合并,这是一个明确的边界条件崩溃修复,改动小且逻辑清晰。值得学习的是使用缓存对象避免重复创建空 tensor 的模式,减少内存分配和 GC 压力。
Cherry-pick DSV4 缺失提交并增强 per-commit 测试
值得精读此 PR,尤其是 `_drop_file_cache_after_load` 的设计模式和测试架构重构思路。对于 DSV4 部署和 RL 训练场景有直接帮助。
修复 DeepSeek V3 Triton MoE 版本降级回归
建议合并,该 PR 修复了一个由 PyTorch/Triton 版本升级引起的隐性性能回归,改动小而精准,风险可控。合并后可考虑在相关测试中覆盖 Triton 3.6.0 环境以验证 fallback 效果。
多 kernel 启用 PDL 提升 DSV32/GLM5 低延迟性能
值得精读。该 PR 展示了在 Triton 和 CUDA kernel 中正确启用 Programmatic Dependent Launch 的方法,修复了 unsafe asm 的问题,可作为 sgl-kernel 中类似 kernel 的参考模板。建议关注 `is_arch_support_pdl` 的检测逻辑和 `cudaLaunchKernelEx` 的使用方式。
原始 PR · 作者 alphabetc1 · 合并时间 2026-05-09 18:22
修复FA3+EAGLE3 topk>1时SWA页表地址翻译
建议精读。本 PR 展示了在注意力后端中处理多级 KV pool 地址空间时的常见陷阱,值得关注 `translate_loc_from_full_to_swa` 的作用和调用情境。改动简洁明了,易于理解,适合作为 backend 开发参考。建议后续添加对应的单元测试或集成测试来预防回归。
修复 hybrid-SWA 精度回归,零化填充索引并修复 dtype
建议立即合并此 PR。它修复了一个关键的精度回归,变更简洁且经过良好推理。开发者在 hybrid-SWA 模型上工作时值得仔细阅读此 PR,以理解 CUDA Graph 填充路径下索引管理的陷阱。
改进 CI 斜杠命令 emoji 语义并实现结果回写
值得精读,尤其是幂等设计和并发控制。建议后续类似的 CI 指令可用此模式。
参与讨论