CPU 优化 Qwen3.5 系列:TP padding 和新 kernel
值得精读,尤其是 `resolve_head_dim` 的提取、`pad_loaded_weight` 的谨慎设计、以及 TP padding 在 CPU 下的交互。Review 中涵盖的多模态配置边界条件和 assert 陷阱对所有贡献者都有参考价值。
SGLang is a high-performance serving framework for large language models and multimodal models.
CPU 优化 Qwen3.5 系列:TP padding 和新 kernel
值得精读,尤其是 `resolve_head_dim` 的提取、`pad_loaded_weight` 的谨慎设计、以及 TP padding 在 CPU 下的交互。Review 中涵盖的多模态配置边界条件和 assert 陷阱对所有贡献者都有参考价值。
NPU 上 support_triton 误将 ascend 排除,修复 MTP 性能
值得合入,修复性能回退。审查简单,风险低。
废弃 Triton act_and_mul,将 filter_expert 合并至 JIT CUDA 激活核
该 PR 设计清晰、测试充分,值得精读。重点关注 `if constexpr` 在 CUDA kernel 中实现零开销抽象的模式,以及过滤路径在不活跃 token 上的 work-stealing 效果。对于 AMD CI 的覆盖,建议后续 PR 跟进。
将 timestep scheduler 从 stage 共享改为 request-local 隔离
本 PR 是 diffusion 模块的重要架构重构,值得仔细阅读。尤其关注 `get_or_create_request_scheduler` 的设计权衡(isolate 参数)以及 `_reset_scheduler_loop_state` 的实现。建议结合评论区反馈验证关键修复是否已落地,并在合并前添加集成测试覆盖主要 pipeline(如 Stable Diffusion 3、Wan2.1、MOVA)。
原始 PR · 作者 sglang-bot · 合并时间 2026-04-26 14:23
升级 sglang-kernel 至 0.4.1.post1 并恢复 hiCache 测试
建议快速浏览,重点关注测试恢复时的 CI 注册套件选择。版本升级模式可作为后续依赖同步的参考。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-26 13:37
修复 nightly PyPI 构建缺少 protoc 问题
该 PR 为基础设施修复,值得相关 CI 维护者关注。设计上复用已有脚本,保持了 CI 配置的一致性。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-26 13:14
修复 PyPI 上传因 +cu129 版本号被拒
该 PR 是典型的 CI 故障修复,值得快速合并。对于团队而言,建议关注未来新增硬件平台 wheel 版本号时,是否会产生类似的 PyPI 兼容性问题。
原始 PR · 作者 yushengsu-thu · 合并时间 2026-04-26 12:44
H200 Pro 配方验证与参数调优
此 PR 属于常规维护,适合快速浏览变更摘要。值得关注的是 review 中提出的两个潜在风险:mem-fraction-static 范围过宽可能影响其他已验证平台,以及注释过时问题。建议在后续 PR 中修复注释并缩小 mem-fraction-static 的改动范围。
参与讨论