修复 NPU 在启用 ASCEND_USE_FIA 时 PD 分离中的 kv_item_lens 计算错误。
对于使用 NPU 和 PD 传输的开发者,建议精读此 PR 以理解 buffer 形状变化对内存计算的影响。变更简单,可作为处理硬件特定模式的示例,但无需深入分析复杂设计决策。重点关注条件分支的逻辑正确性。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 NPU 在启用 ASCEND_USE_FIA 时 PD 分离中的 kv_item_lens 计算错误。
对于使用 NPU 和 PD 传输的开发者,建议精读此 PR 以理解 buffer 形状变化对内存计算的影响。变更简单,可作为处理硬件特定模式的示例,但无需深入分析复杂设计决策。重点关注条件分支的逻辑正确性。
修复Ngram同步竞争条件,用条件变量替代忙等待轮询。
对于涉及多线程同步或speculative decoding的开发者,此PR值得精读,可学习从轮询到条件变量的设计权衡;重点关注pending_count_管理和queue.close()行为,建议review相关代码以理解同步逻辑的演变。
原始 PR · 作者 merrymercy · 合并时间 2026-03-23 15:18
统一 CI 测试套件命名,提升命名一致性和可读性。
对于 CI 维护者和测试开发者,值得浏览以了解新的命名规范;对于一般开发者,无需深入,但可参考 .claude/skills/write-sglang-test/SKILL.md 更新后的测试编写指南。
原始 PR · 作者 yudian0504 · 合并时间 2026-03-23 15:12
修复上下文并行中当 tp_size 等于 attn_cp_size 时残余张量大小不匹配导致的推理崩溃。
对于维护 sglang 并行通信模块的工程师,建议精读此 PR 以理解 CP 中模式匹配和数据布局一致性的细节。变更虽小,但揭示了在并行计算中条件逻辑顺序的重要性,值得关注以防止类似错误;对于管理者,可快速合并以确保系统稳定。
原始 PR · 作者 merrymercy · 合并时间 2026-03-23 14:44
移除显式Blackwell环境变量,改为通过CUDA能力自动检测。
这是一个小型基础设施变更,对核心业务逻辑影响有限。建议CI维护者关注此变更,以理解自动化检测机制和配置简化方向;对于一般工程师,精读价值不大,但可作为CI配置优化的案例参考。
原始 PR · 作者 iforgetmyname · 合并时间 2026-03-23 14:36
修复 NPU CI 中 git 安全检查导致的失败问题。
此 PR 变更简单,建议快速浏览以了解 CI 配置修复方法,无需深入代码分析。对于负责 CI 维护的工程师,可参考此修复处理类似 git 安全检查问题。
将 Ngram 推测解码参数从 branch-length 重命名为 max-trie-depth,作为重构系列的一部分。
对于参与 Ngram 重构或维护推测解码功能的开发者,建议浏览此 PR 以了解参数名称变更,但变更相对机械,无需深入分析设计决策。关注点应放在确保所有文件更新一致,并检查是否有遗漏的重命名。
撤销 PR #19804 对 PPMissingLayer 的 bugfix,可能重新引入 AttributeError。
对于关注 PP 层实现或错误处理机制的工程师值得简要查看,但变更简单,重点在于理解 revert 的原因并监控潜在问题。建议结合 PR #19804 分析以了解上下文。
参与讨论