Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

xpu 相关 PR

2026-06-05

#27341 [MUSA] Fix LingBot World timestep

原始 PR · 作者 yeahdongcn · 合并时间 2026-06-05 19:15

缺陷修复 重要性 6.27 洞察度 5.00

修复 MUSA 平台下 LingBot World 时间步数据类型

该 PR 是典型的平台兼容性修复,值得所有需要跨硬件类型运行的团队参考。尤其是 `current_platform.is_float64_supported()` 这种设计模式,可以作为未来处理类似数据类型兼容问题的通用范式。建议合入后,在 MUSA CI 中加入相关测试用例以防止回归。

功能 重要性 8.37 洞察度 6.00

在 Intel XPU 上启用 Gemma 4 系列模型

**建议精读**:`xpu_backend.py` 中的 SWA 页表翻译设计和 `gemma4_fused_ops.py` 中的路由融合 kernel,这两个是 XPU 后端适配混合注意力模型的关键创新。整体架构清晰,改动自包含,值得参考。**值得关注的决策**:将 fused QKV RMSNorm 断言放宽为 `is_cuda or is_xpu` 并依赖 Triton JIT 的设备无关性,以及通过 `fuse_scale` 将 scale 折叠进 norm.weight 减少 kernel launch。

2026-06-04
基础设施 重要性 4.84 洞察度 3.00

新增 Intel XPU Docker 夜间发布工作流

值得了解。展示了如何为特定硬件平台配置持续发布流水线,对 CI/CD 运维人员有参考价值。

基础设施 重要性 5.16 洞察度 4.00

整合XPU CI测试至单个stage以消除重复构建

对于 CI 维护者,此整合策略值得关注,但需注意后续启用 stage-b 时务必实现 Docker 镜像缓存(如 registry push/pull),以避免重复构建。本次更改不涉及核心逻辑,可安全合并。

2026-06-03
功能 重要性 6.93 洞察度 4.00

XPU 端为 MoE 门控添加 bias group topk 快速路径

该 PR 功能明确,讨论均已解决,测试已补充,建议合并。值得关注的设计决策是 `num_experts` 上限 256 的设定和 scaling 处理与 CUDA 分支的对称性。

#25773 Add fused_rope and for xpu

原始 PR · 作者 gaopengff · 合并时间 2026-06-03 09:41

性能优化 重要性 6.57 洞察度 4.00

XPU 融合 RoPE 内核提升解码性能

值得精读,了解 XPU 上基于 head_size 的 kernel 选择策略和条件分支设计。

2026-05-29

#26257 [XPU] Fix Device Assignment

原始 PR · 作者 SKRohit · 合并时间 2026-05-29 09:38

缺陷修复 重要性 6.56 洞察度 5.00

修复 XPU 设备分配,适配多模型

建议合并。该 PR 解决了 XPU 上的关键阻塞问题,设计简洁,改动量小。但建议作者或团队后续补充针对这些模型的 XPU 单元测试,并跟进 `_match_cos_sin_cache_dtype` 是否有更优实现(如初始化时就匹配 dtype)。

2026-05-28

#25174 update XPU Dockerfile

原始 PR · 作者 yao-matrix · 合并时间 2026-05-28 10:58

基础设施 重要性 4.62 洞察度 5.00

重构XPU Docker环境,改用uv并简化CI路径

值得精读以了解 Intel XPU 部署的最新实践,尤其注意 oneAPI 环境初始化问题的后续修复。设计上嵌套构建的依赖顺序和包管理器选择值得关注。