修复新版 cutdsl 包导致的 CI 错误
作为基础设施修复,建议合并。如果团队使用其他 CUDA 版本(如 cu12),需确认此类 extras 标记是否适用。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复新版 cutdsl 包导致的 CI 错误
作为基础设施修复,建议合并。如果团队使用其他 CUDA 版本(如 cu12),需确认此类 extras 标记是否适用。
原始 PR · 作者 merrymercy · 合并时间 2026-05-19 07:00
P2P缓存路径使用SGLANG_CACHE_DIR环境变量
该 PR 是一个小的基础设施改进,推荐快速合并。技术团队可作为参考,类似硬编码路径问题应统一交由环境变量管理。
原始 PR · 作者 merrymercy · 合并时间 2026-05-19 06:59
为 cutlass_moe_fp4 添加 no_combine 支持
值得精读。该 PR 是一个典型的 API 对齐改进,确保 cutlass 路径与 triton 路径在 no_combine 特性上保持一致。代码改动量小但意义明确,是支持 FP4 MoE 专家并行的重要基础。
原始 PR · 作者 merrymercy · 合并时间 2026-05-19 06:59
修复 SP 下 runtime_max_tokens_per_rank 过大问题
建议需要关注 MoE + 序列并行性能的团队成员精读该改动。设计思路清晰(区分 DP attention 与 SP 的 workspace 需求),可作为类似分配逻辑的优化参考。
Hopper GPU 上禁用 SBO 特性
PR 改动小且明确,建议合并。
修复 CI 工作流名称不匹配
该 PR 为一次简单的配置修复,值得快速合并。
重构 speculative verify 返回类型并清理死代码
值得精读。该 PR 展示了如何通过将私有数据折叠到数据类中来简化接口,并主动清理死代码以降低技术债务。对于参与 speculative decoding 维护的开发者很有参考价值。
为 8-GPU H200 CI 测试启用权重预取
该 PR 技术难度低、风险小,但效益显著,建议快速合并。其中值得关注的设计决策是在多线程加载的同时启用预取——两者叠加带来了 5.9× 的加载加速,表明两者协作良好。后续可将此标志扩展到其他 8-GPU 测试,以进一步加速 CI 套件。
参与讨论