#24874 Reject repetition_penalty=0 in SamplingParams.verify()
原始 PR · 作者 RulinJuice · 合并时间 2026-05-13 12:25
拒绝 repetition_penalty=0 避免 GPU 崩溃
值得精读。这是一个典型的“输入验证防止内核崩溃”的 bugfix,展示了如何通过早期验证避免 GPU 级别的灾难性失败。设计决策值得在其他除法相关参数验证中复用。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 RulinJuice · 合并时间 2026-05-13 12:25
拒绝 repetition_penalty=0 避免 GPU 崩溃
值得精读。这是一个典型的“输入验证防止内核崩溃”的 bugfix,展示了如何通过早期验证避免 GPU 级别的灾难性失败。设计决策值得在其他除法相关参数验证中复用。
原始 PR · 作者 RunningLeon · 合并时间 2026-05-13 12:06
新增 Intern-S2-Preview 部署文档
对于需要部署 Intern-S2-Preview 模型的用户,建议精读此文档。文档中提供的 MTP 多 token 预测配置值得关注,展示了 SGLang 对新模型的高级特性支持。
修复 NSA HiCache 中缺失的 override_kv_cache_dim 参数
值得精读,展示如何从重构中引入细微 bug 并修复,同时进行接口清理。关注 `override_kv_cache_dim` 在共享锚点中的必要性,以及改为传递通信组对象的设计思路。
原始 PR · 作者 alphabetc1 · 合并时间 2026-05-13 11:43
修复被驱逐备份节点的部分匹配失败 bug
建议精读。该 PR 修复了一个涉及节点分裂与驱逐状态组合的边界逻辑,修改虽小但设计精准,测试覆盖了多种混合组件场景,体现了良好的工程实践。
修复 _cascade_evict 叶子判定逻辑
建议精读。该 PR 修正了 UnifiedTree 中一个关键的叶子节点判定逻辑,展示了在分层缓存系统中如何正确处理组件锁定状态与结构叶子之间的关系。`_cascade_evict` 的实现值得学习,尤其是组件优先级与叶子判定的结合。同时,新增的测试用例是隔离测试复杂驱逐场景的典范。
原始 PR · 作者 wangfakang · 合并时间 2026-05-13 10:01
修复对称内存因通信组不一致未启用
建议阅读此 PR,尤其是讨论线程中关于强制参数 vs 可选默认值的设计决策,反映了对关键通信组一致性的严格态度。同时,提醒关注 nvcastet 指出的内存池复用问题,并检查是否已在后续 PR 中修复。对于需要多组通信的场景,建议在合并此 PR 后验证 symm 是否真正生效。
NPU Ascend后端支持PP下MLA KV传输
建议同后端开发人员和关注disaggregation模块的工程师精读,特别是`get_mla_kv_ptrs_with_pp`中的层切片算法和`setup_state_kv_args`中NPUMLA的处理方式,该设计从硬编码演进为结构化参数,具有参考价值。
优化分解式解码 SWA KV 缓存预分配策略
建议合并。值得关注的设计决策:将 SWA 预分配与 full 预分配解耦、CPU copy 的稀疏 mask 处理。后续可考虑将同一优化扩展到 prefill 节点。
参与讨论