Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-05-26
性能优化 重要性 7.75 洞察度 6.00

PP 中跳过纯 chunked prefill 批次的输出通信,释放 SM 资源提升性能

建议阅读:理解 pipeline parallelism 中 SM 占用对 kernel 延迟的影响及如何通过跳过无用通信优化。若部署 DeepSeek-V4 长输入场景(256K token),可启用该优化获得 3-7% TTFT 收益。代码实现简洁(+112 行),验证充分,值得参考。

基础设施 重要性 4.29 洞察度 3.00

修复 CI 中 legacy docs/ 变更检测失效问题

该 PR 属于基础设施加固,值得关注其通过三路 diff 替代 `--cached` 的思路,以及显式 diff 失败处理的模式。对于贡献者而言,应了解 `docs/` 目录的新校验规则。

其他 重要性 6.76 洞察度 6.00

回退 EAGLE topk==1 跳过 softmax 优化

该 PR 是紧急修复回退,建议所有使用 EAGLE + MTP 的部署立即合入。对于仅使用标准 EAGLE 且关注性能的团队,可关注后续优化的重新提交通常采用 `topk==1 AND not is_mtp_path` 的 guard 或数学恒等式 softmax 优化。PR 的讨论和 PR Body 中的根因分析方法值得精读,展示了精确的跨运行对比和手动验证流程。

重构 重要性 6.86 洞察度 6.00

提取 Scheduler.__init__ 中 13 个组件构造为独立 init_* 方法

值得精读,尤其是提取策略和字节等价验证方法。展示了如何在不影响行为的前提下提升可定制性,并配备 Agent 技能文档以自动化约束。review 中关于 `None` 初始化的未采纳建议值得后续跟进。

缺陷修复 重要性 5.00 洞察度 3.00

检查 cudaHostRegister 返回值,失败时抛出异常

该 PR 小而精,值得精读作为一个良好实践:在系统编程中始终检查 CUDA API 的返回码。可直接合并,无需额外关注。

#26392 [AMD] Relaxing timeout for AMD CI

原始 PR · 作者 yctseng0211 · 合并时间 2026-05-26 17:25

基础设施 重要性 3.29 洞察度 2.00

放宽 AMD CI 超时限制

建议快速合入。该 PR 是纯运维调整,无代码风险,能有效缓解 AMD CI 的超时问题。后续可考虑优化测试速度或采用更智能的超时策略。

功能 重要性 8.31 洞察度 6.00

为 Mamba2 模型支持 extra_buffer 调度策略

该 PR 展示了如何将 extra_buffer 策略从 FLA 扩展到 Mamba2,其 chunk size 统一思路值得借鉴。但由于合并后出现回归,建议暂停部署,待作者修复后重新 review。阅读此 PR 可重点关注 `_init_track_ssm_indices` 中的索引映射逻辑和 `mamba_cache_chunk_size` 的动态计算过程。

参与讨论