Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-05-08

#24470 Cache empty MatchResult in RadixCache

原始 PR · 作者 merrymercy · 合并时间 2026-05-08 08:13

性能优化 重要性 6.66 洞察度 4.00

缓存空 MatchResult 避免重复分配

值得合并,变更简洁且安全。建议关注 HiRadixCache 场景下 _empty_match_result.device 与运行时 device 的一致性,必要时在 HiRadixCache 中 override reset() 确保 tensor 创建在正确 device 上。

#24635 Fix stuck when enabling MTP on DSA models

原始 PR · 作者 Fridge003 · 合并时间 2026-05-08 08:06

缺陷修复 重要性 6.41 洞察度 6.00

修复 DSA 模型启用 MTP 时的死锁问题

此 PR 修复了高优先级 bug,改动集中、逻辑清晰,CI 已全部通过。建议尽快合并并回传到相关发布分支。值得关注的设计决策包括:frozen dataclass 在 CUDA graph replay 中的赋值模式,以及 `_to_2d_context_lens` 的布局规范方法。

功能 重要性 8.89 洞察度 6.00

为自定义推测算法添加注册机制

值得精读,它展示了如何在不破坏现有代码的前提下提供扩展点。对于需要自定义推测算法的用户尤其有价值,设计模式具有参考意义。

功能 重要性 9.18 洞察度 7.00

两阶段推理语法约束解码与严格思考模式

该 PR 设计精良,状态机分离清晰,将推理阶段与生成阶段的约束解耦。建议仔细审阅状态机转换逻辑和 rollback 跨越边界的处理。`_finished` 初始化问题应确保修复。对于 regex 行为回归问题,需额外调试确认。整体上,PR 对支持推理模型的约束解码具有重要意义,值得合并并持续监控。

缺陷修复 重要性 7.75 洞察度 5.00

处理Kimi-K2.5裸数字调用ID,推断函数名

**建议合并**(PR 已合并)。该 PR 解决了 Kimi-K2.5 工具调用中的关键兼容问题,且测试充分。 **值得注意的设计**:利用参数模式匹配推断缺失的函数名是一种轻量级解决方法,但在参数重叠时可能不够精确;可考虑在后续迭代中加入更稳健的神经网络或逻辑回归。 **后续关注**:code review 中提到的三个问题虽未解决,但影响可能有限,建议在真实负载运行后评估是否需进一步修复。

功能 重要性 9.18 洞察度 5.00

auto 检测推理/工具调用解析器

值得精读,特别是 `template_detection.py` 的规则引擎设计可作为类似场景的参考。关注 `thinks_internally` 和 `reasoning_default` 如何与 `_get_reasoning_from_request` 集成,消除 if/elif 是良好的重构模式。

#24436 [Gemma 4] Adding MTP support

原始 PR · 作者 kpham-sgl · 合并时间 2026-05-08 05:08

功能 重要性 9.36 洞察度 6.00

为 Gemma4 添加 FROZEN_KV_MTP 投机解码算法

此 PR 对于 Gemma 4 用户至关重要,值得精读。设计上选择冻结 KV 方案而非传统 EAGLE 是合理的。关注点是 TP>1 支持尚未完全验证,数值掩码稳定性有待改进。建议后续跟进 TP 测试和掩码修复。

参与讨论