Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-05-10

#24772 Fix PD bootstrap failure handling

原始 PR · 作者 yhyang201 · 合并时间 2026-05-10 19:02

缺陷修复 重要性 5.17 洞察度 4.00

修复 PD 引导失败时状态异常与属性错误

建议合入。该 PR 是典型的边界条件修复,改动量小且逻辑正确,经 review 确认可读。对于关注 PD 部署稳定性的团队,值得了解该修复以避免生产环境中的无声错误。

重构 重要性 5.98 洞察度 6.00

清理推测解码中的空闲存根和形状检查模式

值得精读以了解推测解码中空闲状态处理的正确模式。特别是 `create_idle_input` 工厂方法与裸构造函数的权衡,以及 `input_ids.shape[0]` 优于 `numel` 的理由。但需留意 review 中提到的 `MultiLayerEagleWorker` 潜在隐藏大小不匹配问题,建议跟进修复。

缺陷修复 重要性 5.69 洞察度 6.00

修复 Mooncake 后端未传输 DSv4 状态池的 Bug

值得精读,尤其是关注解耦推理、MLA 状态传输或 Mooncake 后端的开发者。设计决策(委托 `_send_kvcache_generic` 而非新建扁平路径)体现了对 MTP 场景兼容性的考量,值得学习。

重构 重要性 8.78 洞察度 7.00

拆分推测解码V1 Draft/Extend数据结构

该 PR 值得精读,尤其是 `eagle_info.py` 与 `frozen_kv_mtp_info.py` 中的数据结构设计。对于从事推测解码开发的工程师,可以学习如何通过类型拆分消除阶段混淆。PR body 中的“Looks confusing but is correct”部分对设计权衡有清晰解释,可作为代码注释的典范。建议在合并前或合并后补充 V2 对齐的 issue 跟踪。

性能优化 重要性 8.42 洞察度 7.00

融合QKV RMSNorm并修复FP8 MoE权重加载

此PR包含两个值得关注的设计:融合Triton内核使用stride view避免拷贝,以及保守的fallback策略;加载器中的正则映射模式可复用于其他支持per-expert格式的模型。测试用例的三阶段设计(健康、非垃圾、精度)提供良好的回归保护。

#24826 [spec decoding] support kimi-k2.5-eagle3-mla

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-10 14:57

功能 重要性 8.12 洞察度 5.00

支持 Kimi-K2.5 EAGLE3 MLA 推测解码模型

值得精读 EAGLE3 与 MLA 结合的设计,特别是如何通过替换 `fused_qkv_a_proj_with_mqa` 来适配拼接输入。建议后续补充单元测试覆盖前向逻辑与权重加载。

缺陷修复 重要性 5.71 洞察度 5.00

修复 Spec-V2 重叠调度中过时状态更新导致的 KV 记账错误

建议阅读核心逻辑变更和 review 讨论,理解异步过时状态处理的设计权衡;全局指标一致性问题可作后续优化方向。

参与讨论