#23539 [Bug Fix] missing index/KV transfer for MTP layer in NSA disaggregation
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-04-30 11:55
[NSA PD] 修复 MTP 层 draft 模型状态未传输
建议合并。该修复针对性强,逻辑简洁,review 后无争议。团队后续可考虑为其他状态池(如 SWA、Mamba)做类似扩展,确保统一覆盖。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-04-30 11:55
[NSA PD] 修复 MTP 层 draft 模型状态未传输
建议合并。该修复针对性强,逻辑简洁,review 后无争议。团队后续可考虑为其他状态池(如 SWA、Mamba)做类似扩展,确保统一覆盖。
原始 PR · 作者 yctseng0211 · 合并时间 2026-04-30 11:36
修复AMD夜间测试checkout指向移动指针问题
此 PR 虽小但避免了常见的 CI 暗坑(移动指针引用),值得在同类工作流中推广。若您维护其他 CI 配置,可检查是否也存在类似问题。
原始 PR · 作者 yudian0504 · 合并时间 2026-04-30 10:57
修复 PD 分离部署中 Mamba 缓存池大小计算错误
值得精读。本 PR 展示了在 PD 分离架构下处理 Mamba 缓存一致性的正确方法,特别是如何通过 server_args 进行 fallback 以及精确计算槽位需求。对于维护多节点推理系统的开发者有参考价值。
向 CI 权限配置中添加新用户
该 PR 为权限配置的常规维护,无代码洞察价值。无需精读,可快速合并。
固定 xgrammar 版本并清理 XPU 部署配置
该 PR 为常规依赖管理操作,技术亮点不多,但体现了对兼容性的重视。建议读者了解 XPU 部署中的依赖锁定策略。对于关注结构化生成的团队,可参考其版本固定方式。
为 MiniMax-M2 添加 NPU 融合算子支持并修复 dp attention bug
值得精读 `forward_prepare_npu` 的实现和平台分支设计,可作为未来 NPU 适配其他模型时的参考模式。注意后续需补充 NPU 集成测试,并关注 `sgl_kernel_npu` 的版本更新。
原始 PR · 作者 merrymercy · 合并时间 2026-04-30 08:33
修复 SWA 模型中 get_cpu_copy 缺少 mamba_indices 参数导致的崩溃
推荐阅读。该 PR 展示了一个典型的接口扩展之后遗漏子类导致的 bugfix 过程。设计决策上,作者选择显式参数而非 `**kwargs`,提升了代码可读性和类型安全性。值得关注的是如何系统性地扫描整个类层次结构并统一修改。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-04-30 07:53
放宽 step3.5 flash chain MTP 测试阈值
可直接合并,无需精读。这是一个常规的 flaky 测试修复,值得注意的是一致性:同仓库近期有多个类似阈值调整 PR(如 PR#24026 修复参数缺失),但本 PR 仅为测试维护,无深层技术洞察。
参与讨论