Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-13 17:27 同步状态:空闲 下次计划:2026-06-13 18:27

PR 列表

更多筛选
2026-05-13
缺陷修复 重要性 5.74 洞察度 4.00

拒绝 repetition_penalty=0 避免 GPU 崩溃

值得精读。这是一个典型的“输入验证防止内核崩溃”的 bugfix,展示了如何通过早期验证避免 GPU 级别的灾难性失败。设计决策值得在其他除法相关参数验证中复用。

#25115 [Doc]: add interns2preview in cookbook

原始 PR · 作者 RunningLeon · 合并时间 2026-05-13 12:06

文档 重要性 4.55 洞察度 2.00

新增 Intern-S2-Preview 部署文档

对于需要部署 Intern-S2-Preview 模型的用户,建议精读此文档。文档中提供的 MTP 多 token 预测配置值得关注,展示了 SGLang 对新模型的高级特性支持。

缺陷修复 重要性 6.16 洞察度 5.00

修复 NSA HiCache 中缺失的 override_kv_cache_dim 参数

值得精读,展示如何从重构中引入细微 bug 并修复,同时进行接口清理。关注 `override_kv_cache_dim` 在共享锚点中的必要性,以及改为传递通信组对象的设计思路。

缺陷修复 重要性 5.92 洞察度 6.00

修复被驱逐备份节点的部分匹配失败 bug

建议精读。该 PR 修复了一个涉及节点分裂与驱逐状态组合的边界逻辑,修改虽小但设计精准,测试覆盖了多种混合组件场景,体现了良好的工程实践。

缺陷修复 重要性 6.10 洞察度 5.00

修复 _cascade_evict 叶子判定逻辑

建议精读。该 PR 修正了 UnifiedTree 中一个关键的叶子节点判定逻辑,展示了在分层缓存系统中如何正确处理组件锁定状态与结构叶子之间的关系。`_cascade_evict` 的实现值得学习,尤其是组件优先级与叶子判定的结合。同时,新增的测试用例是隔离测试复杂驱逐场景的典范。

缺陷修复 重要性 6.41 洞察度 6.00

修复对称内存因通信组不一致未启用

建议阅读此 PR,尤其是讨论线程中关于强制参数 vs 可选默认值的设计决策,反映了对关键通信组一致性的严格态度。同时,提醒关注 nvcastet 指出的内存池复用问题,并检查是否已在后续 PR 中修复。对于需要多组通信的场景,建议在合并此 PR 后验证 symm 是否真正生效。

#23893 [NPU]pp support mla kv transfer

原始 PR · 作者 chenxu214 · 合并时间 2026-05-13 09:10

功能 重要性 7.18 洞察度 5.00

NPU Ascend后端支持PP下MLA KV传输

建议同后端开发人员和关注disaggregation模块的工程师精读,特别是`get_mla_kv_ptrs_with_pp`中的层切片算法和`setup_state_kv_args`中NPUMLA的处理方式,该设计从硬编码演进为结构化参数,具有参考价值。

性能优化 重要性 8.47 洞察度 6.00

优化分解式解码 SWA KV 缓存预分配策略

建议合并。值得关注的设计决策:将 SWA 预分配与 full 预分配解耦、CPU copy 的稀疏 mask 处理。后续可考虑将同一优化扩展到 prefill 节点。

参与讨论