Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-06-03

#25773 Add fused_rope and for xpu

原始 PR · 作者 gaopengff · 合并时间 2026-06-03 09:41

性能优化 重要性 6.57 洞察度 4.00

XPU 融合 RoPE 内核提升解码性能

值得精读,了解 XPU 上基于 head_size 的 kernel 选择策略和条件分支设计。

性能优化 重要性 6.64 洞察度 6.00

复制embed_tokens消除TP all-reduce,提升解码性能1-2%

此 PR 是典型的空间换时间设计,代码简洁且注释充分。建议对 DeepSeek 模型优化感兴趣的工程师仔细阅读 `get_embedding_tp_kwargs` 的实现和文档串,理解其与 DP attention 的交互。审阅人的讨论也值得关注,在实际部署时应根据 TP 规模和模型参数评估收益。

缺陷修复 重要性 6.40 洞察度 4.00

修复混合注意力线性层误路由到full后端

如果希望采用更简洁的路由方案,本 PR 的设计(仅依赖 layer_id)优于基于类型的快捷方式。但由于主线已合并 #26474 hotfix,建议评估是否仍需要本 PR 的清理,或直接在此基础上进一步重构。

功能 重要性 9.03 洞察度 6.00

在ROCm上集成AITER自定义all-gather,加速TP通信

值得精读。该PR展示了在大型项目中安全集成第三方加速库的范例:环境变量开关、完备的fallback、CUDA图各阶段一致性处理、以及配套的benchmark和CI测试。`_all_gather_into_tensor`中的条件编排和状态分支设计可供参考。

缺陷修复 重要性 7.02 洞察度 6.00

修复 trtllm_mha 在 FROZEN_KV MTP 下的 SWA 越界崩溃

该 PR 是一个教科书式的精确 bugfix:定位清晰、修改最小、逻辑自洽、参考了既有实现(FlashInfer)。值得关注的设计决策是「读取 allocator 而非 pool」作为稳定信源的思路,以及防御性 `getattr` 处理。推荐精读 `_resolve_swa_kv_pool` 方法和相关的守卫条件调整。

测试 重要性 4.60 洞察度 5.00

调高 JIT kernel 测试超时阈值

PR 变更简单,值得关注的是其根因分析思路(对比不同参数化测试耗时、推断冷 JIT 缓存)。建议阅读 PR body 中的“smoking gun”分析,理解如何从 CI 日志中定位非死锁类超时问题。长期方案(固定 JIT 缓存路径)值得跟进。

参与讨论