合并Xeon CI两个测试分区为一个job,减少runner竞争
值得合并,CI 改进有实际效益,bench bug fix 也很重要。修改简洁,适合快速合入。
SGLang is a high-performance serving framework for large language models and multimodal models.
合并Xeon CI两个测试分区为一个job,减少runner竞争
值得合并,CI 改进有实际效益,bench bug fix 也很重要。修改简洁,适合快速合入。
XPU 融合 RoPE 内核提升解码性能
值得精读,了解 XPU 上基于 head_size 的 kernel 选择策略和条件分支设计。
WanVAE 上采样保持输入 dtype
小优化,可直接合并。关注点在于 `current_platform.is_amp_supported()` 的语义是否覆盖所有 AMP 场景。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-03 07:48
复制embed_tokens消除TP all-reduce,提升解码性能1-2%
此 PR 是典型的空间换时间设计,代码简洁且注释充分。建议对 DeepSeek 模型优化感兴趣的工程师仔细阅读 `get_embedding_tp_kwargs` 的实现和文档串,理解其与 DP attention 的交互。审阅人的讨论也值得关注,在实际部署时应根据 TP 规模和模型参数评估收益。
原始 PR · 作者 alisonshao · 合并时间 2026-06-03 07:24
修复混合注意力线性层误路由到full后端
如果希望采用更简洁的路由方案,本 PR 的设计(仅依赖 layer_id)优于基于类型的快捷方式。但由于主线已合并 #26474 hotfix,建议评估是否仍需要本 PR 的清理,或直接在此基础上进一步重构。
原始 PR · 作者 hubertlu-tw · 合并时间 2026-06-03 06:57
在ROCm上集成AITER自定义all-gather,加速TP通信
值得精读。该PR展示了在大型项目中安全集成第三方加速库的范例:环境变量开关、完备的fallback、CUDA图各阶段一致性处理、以及配套的benchmark和CI测试。`_all_gather_into_tensor`中的条件编排和状态分支设计可供参考。
修复 trtllm_mha 在 FROZEN_KV MTP 下的 SWA 越界崩溃
该 PR 是一个教科书式的精确 bugfix:定位清晰、修改最小、逻辑自洽、参考了既有实现(FlashInfer)。值得关注的设计决策是「读取 allocator 而非 pool」作为稳定信源的思路,以及防御性 `getattr` 处理。推荐精读 `_resolve_swa_kv_pool` 方法和相关的守卫条件调整。
原始 PR · 作者 alisonshao · 合并时间 2026-06-03 05:33
调高 JIT kernel 测试超时阈值
PR 变更简单,值得关注的是其根因分析思路(对比不同参数化测试耗时、推断冷 JIT 缓存)。建议阅读 PR body 中的“smoking gun”分析,理解如何从 CI 日志中定位非死锁类超时问题。长期方案(固定 JIT 缓存路径)值得跟进。
参与讨论