Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-19
基础设施 重要性 4.97 洞察度 3.00

P2P缓存路径使用SGLANG_CACHE_DIR环境变量

该 PR 是一个小的基础设施改进,推荐快速合并。技术团队可作为参考,类似硬编码路径问题应统一交由环境变量管理。

#25688 Add no_combine support to cutlass_moe_fp4

原始 PR · 作者 merrymercy · 合并时间 2026-05-19 06:59

功能 重要性 5.75 洞察度 5.00

为 cutlass_moe_fp4 添加 no_combine 支持

值得精读。该 PR 是一个典型的 API 对齐改进,确保 cutlass 路径与 triton 路径在 no_combine 特性上保持一致。代码改动量小但意义明确,是支持 FP4 MoE 专家并行的重要基础。

缺陷修复 重要性 5.70 洞察度 5.00

修复 SP 下 runtime_max_tokens_per_rank 过大问题

建议需要关注 MoE + 序列并行性能的团队成员精读该改动。设计思路清晰(区分 DP attention 与 SP 的 workspace 需求),可作为类似分配逻辑的优化参考。

重构 重要性 6.97 洞察度 5.00

重构 speculative verify 返回类型并清理死代码

值得精读。该 PR 展示了如何通过将私有数据折叠到数据类中来简化接口,并主动清理死代码以降低技术债务。对于参与 speculative decoding 维护的开发者很有参考价值。

基础设施 重要性 3.88 洞察度 3.00

为 8-GPU H200 CI 测试启用权重预取

该 PR 技术难度低、风险小,但效益显著,建议快速合并。其中值得关注的设计决策是在多线程加载的同时启用预取——两者叠加带来了 5.9× 的加载加速,表明两者协作良好。后续可将此标志扩展到其他 8-GPU 测试,以进一步加速 CI 套件。

参与讨论