绕过 torch.cuda.use_mem_pool 上下文管理器,直接调用底层 C API
值得精读。该 PR 展示了如何通过绕过高层 API 来简化状态管理,是典型的性能优化和代码简化实践。但应关注 PyTorch 私有 API 的兼容性。
SGLang is a high-performance serving framework for large language models and multimodal models.
绕过 torch.cuda.use_mem_pool 上下文管理器,直接调用底层 C API
值得精读。该 PR 展示了如何通过绕过高层 API 来简化状态管理,是典型的性能优化和代码简化实践。但应关注 PyTorch 私有 API 的兼容性。
原始 PR · 作者 merrymercy · 合并时间 2026-05-01 15:01
修复 prefill 阶段 SWA cache location 被忽略问题
建议精读。此 PR 展示了一个典型的“使用预计算值替代重复计算”的优化模式,同时也体现了 review 中发现的“直接引用状态属性 vs 通过 forward_batch 传递”的设计陷阱。对于维护 SWA 或类似缓存机制的同学,该变更和讨论值得学习。
新增精确控制共享前缀比例的 warm-cache 基准测试
值得精读,尤其是设计精确控制变量的基准测试的方法。它展示了如何在不改动现有代码的前提下,为特定研究场景补充专用工具,其与现有基准对齐的指标设计也值得参考。
原始 PR · 作者 billishyahao · 合并时间 2026-05-01 14:36
禁用 SpecV2 以修复 AMD MoE RIP 测试
建议合并此临时修复以恢复 CI 稳定性,并跟进后续的 SpecV2 + moriep 兼容性修复。
去掉 diffusion PR 测试的 --parametrized-only 参数
可合入,无风险。
修复 EP 下 MoE LoRA 切片与虚拟专家内核正确性
建议详细阅读该 PR,尤其是虚拟专家内核的哨兵处理技巧和 MoE 切片索引的修复逻辑,这些模式可复用于其他并行度组合的 LoRA 支持。测试设计精巧,值得参考。
修复 B200 CI 测试被静默跳过的问题
建议快速合并。这是一个典型的 CI 回退不完整导致的 bug,修复逻辑简单且正确。对于 CI 维护者,这是个值得注意的教训:回退时应检查所有引用点。
原始 PR · 作者 alisonshao · 合并时间 2026-05-01 12:49
限制 nightly CI 并发度为每硬件类型一个任务
此 PR 为典型的 CI 基础设施优化,值得阅读以了解如何通过 concurrency group 和 max-parallel 控制 CI 并发。建议合并后持续观察 nightly 运行时间,必要时微调超时设定。
参与讨论