Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-05-20

#25826 Update CI permissions and CODEOWNERS

原始 PR · 作者 Fridge003 · 合并时间 2026-05-20 09:19

基础设施 重要性 2.86 洞察度 2.00

更新 CI 权限和代码所有者配置

值得合并,但建议在合并前确认 CI/CODEOWNERS 评论中指出的不一致(修改的用户是否正确,@rainj-me 是否应被移除)。无架构性设计决策需要学习。

#25483 [codex] Update Wan2.2 ModelOpt CI checkpoints

原始 PR · 作者 BBuf · 合并时间 2026-05-20 09:05

基础设施 重要性 6.92 洞察度 5.00

更新 Wan2.2 ModelOpt CI 检查点为 NVIDIA 官方版本

建议阅读该 PR 以了解 SGLang 对 ModelOpt NVFP4 布局的处理方式,特别是 `swap_weight_nibbles` 的默认值选择逻辑和 FLUX.1 特殊分支。对维护 Blackwell 量化的开发者具有参考价值。

#25774 drop output ids

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-20 08:50

重构 重要性 6.84 洞察度 6.00

移除 ScheduleBatch.output_ids,统一使用 input_ids 作为跨迭代桥梁

本 PR 是一次关键的内部重构,值得 SRT 调度层开发者精读。尤其注意重叠模式下占位符的使用方式,以及后续 PR #25819 将继续清理 `prepare_for_extend` 中的冗余移位。

#24934 DeepSeek V4 MTP Support CP

原始 PR · 作者 Paiiiiiiiiiiiiii · 合并时间 2026-05-20 07:51

功能 重要性 7.39 洞察度 6.00

DeepSeek V4 MTP 支持 Context Parallel

值得精读,尤其是在 CP 与 speculative decoding 集成方面的实现模式。关注点:CP 元数据的准备时机、数据切分后如何恢复顺序,以及 CP 与 dp_attention 的兼容性。设计权衡:复用 NSA 已有的 CP 工具函数,避免重复逻辑,但引入了对 NSA 后端的隐式依赖。

性能优化 重要性 7.34 洞察度 6.00

缓存 MQA logits 内存预算,避免重复 host sync

本 PR 展示了如何通过缓存避免 host-device 同步来优化延迟敏感路径,设计简洁效果明显。建议阅读以学习性能优化技巧,尤其对于涉及 GPU 内存查询的场景。同时,关注缓存预算的计算方式,可参考其双预算约束设计。

缺陷修复 重要性 5.02 洞察度 6.00

修复 CI 重跑后 PR 状态不刷新

对于维护 CI/CD 基础设施的工程师,本 PR 有较高的参考价值——展示了如何利用 workflow_dispatch 绕过 workflow_run 在重跑时的限制,以及 fork PR 兼容性考虑。可精读 pr-states.yml 中的 JavaScript 逻辑和 notify job 的设计。

功能 重要性 5.75 洞察度 5.00

支持 FlashMLA 使用 spec decoding v2

值得精读,展示了如何为特定 attention 后端添加 spec v2 支持,涉及调度模式匹配和条件分支的技巧。

#25809 deflake priority below-threshold test

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-20 06:19

缺陷修复 重要性 5.81 洞察度 5.00

修复优先级调度测试的竞态不稳定性

该 PR 值得快速合入,没有风险。可从中学习到处理异步测试 flaky 的通用模式:用 `create_task` + 显式延迟代替 `gather` 来控制请求到达顺序;使用 `ignore_eos` 确保请求持续运行,避免因提前结束导致的断言失败。

参与讨论