Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-05-11
缺陷修复 重要性 6.52 洞察度 3.00

修复非 NVLink 场景下 CUDA graph 捕获崩溃

这是一个高信号、低风险的 bugfix,建议尽快合并并 cherry-pick 到涉及 PR #24363 的版本分支。对于 `sglang` 的定制通信层开发者,`capture()` 的 guard 模式值得参考,以确保 future 的类似 `disabled` 分支保持一致。

缺陷修复 重要性 5.84 洞察度 6.00

修复 SUM_LEN 模式下 reduce_scatterv 合约错误

建议精读该 PR 以理解 DP reduce_scatterv 生产合约的关键设计思路。这是一个典型的生产合约 Bug,修复逻辑清晰但影响重大,值得作为分布式推理中通信合约设计的案例研究。

功能 重要性 7.75 洞察度 5.00

添加 routed_experts_start_len 参数,支持路由数据绝对切片控制

值得精读。该 PR 展示了如何通过一个简单的小参数消除多轮推理场景中的线性瓶颈,设计思路清晰:在数据采集点引入切片控制,从源头减少不必要的 gather 和序列化。对于其他类似的数据收集(如 logprobs、hidden states)也可参考此模式。

#24855 [Model] Add MiniCPM-V 4.6 support

原始 PR · 作者 AgainstEntropy · 合并时间 2026-05-11 00:24

功能 重要性 9.00 洞察度 5.00

添加 MiniCPM-V 4.6 多模态模型支持

该 PR 结构清晰,目标准确,适合作为多模态模型集成的参考范例。建议仔细审阅视觉 Transformer 实现中的 MiniCPMV_ViTWindowAttentionMerger 设计(包含 CPU 端索引构建以避免 PyTorch 2.10+ 设备检查),以及配置类的 _build_text_config 回退逻辑。由于缺少自动化测试,合并后应尽快补充单元测试和集成测试。

2026-05-10

#24875 Support Intern-S2-Preview

原始 PR · 作者 RunningLeon · 合并时间 2026-05-10 22:17

功能 重要性 7.52 洞察度 4.00

支持 Intern-S2-Preview 多模态模型

该 PR 是 SGLang 添加新模型的典型范例,结构清晰(继承+注册),推荐开发者阅读以了解模型集成流程。可重点关注配置文件、路由注册和多模态处理器的修改模式。

#24888 [PD] Unify dsv4 dispatch with swa

原始 PR · 作者 ispobock · 合并时间 2026-05-10 22:01

重构 重要性 6.85 洞察度 5.00

统一 DSV4 与 SWA 状态传输,删除冗余逻辑

值得精读:展示了如何通过消除冗余分支简化代码并修复隐式 bug。关注继承关系依赖和通用路径的兼容性保证。

性能优化 重要性 8.72 洞察度 6.00

优化 DSV4 MHC pipeline:融合 kernel、折叠 reduction、利用 DeepGemm

该 PR 展示了高性能 MLA 场景下的 kernel 融合策略,值得研究其折叠 reduction 和使用 `triton.next_power_of_2` 等技巧,但合并前应确保有端到端 benchmark 验证;对于 DSV4 用户,加速效果明显,建议优先合并。

参与讨论