Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-05-28

#26382 Enable Kimi-K2.5 piecewise CUDA graph

原始 PR · 作者 BBuf · 合并时间 2026-05-28 13:51

功能 重要性 6.75 洞察度 6.00

为 Kimi-K2.5 启用分段 CUDA Graph

值得精读,尤其是分段 CUDA Graph 启用模式的通用设计(`model` 属性别名 + `__setattr__` 保护)。这是个典型的性能优化与框架限制博弈的案例。

功能 重要性 5.70 洞察度 5.00

CI /rerun-test 支持 glob 通配符模式

值得精读,特别是 `expand_glob_spec` 的实现和安全约束的设计,可以作为 CI 工具开发的参考。也可关注去重逻辑的演进。

#24552 [Gemma4] Add test for MTP models

原始 PR · 作者 kpham-sgl · 合并时间 2026-05-28 12:36

测试 重要性 7.44 洞察度 4.00

为Gemma4 MTP模型添加GSM8K端到端测试

值得精读测试设计模式,了解 SGLang 中 speculative decoding 端到端测试的编写方法(服务器启动、配置验证、评估执行、断言输出)。可作为新模型 MTP 测试的模板。关注 CI 注册和阶段命名规则,避免后续维护成本。

缺陷修复 重要性 5.91 洞察度 6.00

修复 PD 分离模式下 cached_tokens 重复计数问题

建议所有使用 PD 分离模式且启用了 decode radix cache 的生产环境优先合并此 PR。值得关注的细节:通过播种 `already_computed` 来同步 prefill 和 decode 之间的状态,是一种简洁有效的状态传递模式,可参考用于类似的双阶段计数场景。

#25174 update XPU Dockerfile

原始 PR · 作者 yao-matrix · 合并时间 2026-05-28 10:58

基础设施 重要性 4.62 洞察度 5.00

重构XPU Docker环境,改用uv并简化CI路径

值得精读以了解 Intel XPU 部署的最新实践,尤其注意 oneAPI 环境初始化问题的后续修复。设计上嵌套构建的依赖顺序和包管理器选择值得关注。

#25061 Fix MiniMax-M2.7 on CPU

原始 PR · 作者 chunyuan-w · 合并时间 2026-05-28 10:53

缺陷修复 重要性 6.90 洞察度 5.00

修复 MiniMax-M2.7 在 CPU 上的运行问题

该 PR 值得合并,它解决了特定模型的 CPU 兼容性,且改动集中、设计合理。建议关注作者创建的 issue #26439 以跟踪后续优化(如融合 all-reduce、增加 CPU kernel 支持)。Review 中关于类型转换隐藏和条件精度的做法值得借鉴。

基础设施 重要性 5.08 洞察度 4.00

增强 Intel Xeon CPU CI 稳定性和测试覆盖

该 PR 显著提升了 Xeon CI 的可靠性和覆盖范围,设计合理,讨论中的问题均已澄清或解决。建议合并,并考虑后续将 `HF_TOKEN` 迁移至 GitHub Secrets 以增强安全性。

#26478 [AMD] [CI] Register MI35x GSM8K nightly tests

原始 PR · 作者 bingxche · 合并时间 2026-05-28 10:31

测试 重要性 6.29 洞察度 4.00

将 MI35x 上两个模型测试迁移为 nightly 测试

建议关注 nightly 运行结果,确保测试稳定通过;可在后续将类似资源密集型测试逐步迁移至 nightly。

参与讨论