Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-04-27

#19484 [CPU] Add Qwen3.5 model optimization for CPU

原始 PR · 作者 jianan-gu · 合并时间 2026-04-27 01:12

功能 重要性 8.68 洞察度 6.00

CPU 优化 Qwen3.5 系列:TP padding 和新 kernel

值得精读,尤其是 `resolve_head_dim` 的提取、`pad_loaded_weight` 的谨慎设计、以及 TP padding 在 CPU 下的交互。Review 中涵盖的多模态配置边界条件和 assert 陷阱对所有贡献者都有参考价值。

2026-04-26

#23604 [NPU]Fix support_triton bug

原始 PR · 作者 Liwansi · 合并时间 2026-04-26 21:34

缺陷修复 重要性 5.05 洞察度 3.00

NPU 上 support_triton 误将 ascend 排除,修复 MTP 性能

值得合入,修复性能回退。审查简单,风险低。

重构 重要性 8.67 洞察度 6.00

废弃 Triton act_and_mul,将 filter_expert 合并至 JIT CUDA 激活核

该 PR 设计清晰、测试充分,值得精读。重点关注 `if constexpr` 在 CUDA kernel 中实现零开销抽象的模式,以及过滤路径在不活跃 token 上的 work-stealing 效果。对于 AMD CI 的覆盖,建议后续 PR 跟进。

重构 重要性 8.29 洞察度 7.00

将 timestep scheduler 从 stage 共享改为 request-local 隔离

本 PR 是 diffusion 模块的重要架构重构,值得仔细阅读。尤其关注 `get_or_create_request_scheduler` 的设计权衡(isolate 参数)以及 `_reset_scheduler_loop_state` 的实现。建议结合评论区反馈验证关键修复是否已落地,并在合并前添加集成测试覆盖主要 pipeline(如 Stable Diffusion 3、Wan2.1、MOVA)。

基础设施 重要性 5.86 洞察度 3.00

升级 sglang-kernel 至 0.4.1.post1 并恢复 hiCache 测试

建议快速浏览,重点关注测试恢复时的 CI 注册套件选择。版本升级模式可作为后续依赖同步的参考。

文档 重要性 5.63 洞察度 4.00

H200 Pro 配方验证与参数调优

此 PR 属于常规维护,适合快速浏览变更摘要。值得关注的是 review 中提出的两个潜在风险:mem-fraction-static 范围过宽可能影响其他已验证平台,以及注释过时问题。建议在后续 PR 中修复注释并缩小 mem-fraction-static 的改动范围。

参与讨论