为 Kimi-K2.5 启用分段 CUDA Graph
值得精读,尤其是分段 CUDA Graph 启用模式的通用设计(`model` 属性别名 + `__setattr__` 保护)。这是个典型的性能优化与框架限制博弈的案例。
SGLang is a high-performance serving framework for large language models and multimodal models.
为 Kimi-K2.5 启用分段 CUDA Graph
值得精读,尤其是分段 CUDA Graph 启用模式的通用设计(`model` 属性别名 + `__setattr__` 保护)。这是个典型的性能优化与框架限制博弈的案例。
原始 PR · 作者 alisonshao · 合并时间 2026-05-28 12:55
CI /rerun-test 支持 glob 通配符模式
值得精读,特别是 `expand_glob_spec` 的实现和安全约束的设计,可以作为 CI 工具开发的参考。也可关注去重逻辑的演进。
为Gemma4 MTP模型添加GSM8K端到端测试
值得精读测试设计模式,了解 SGLang 中 speculative decoding 端到端测试的编写方法(服务器启动、配置验证、评估执行、断言输出)。可作为新模型 MTP 测试的模板。关注 CI 注册和阶段命名规则,避免后续维护成本。
原始 PR · 作者 hippothewild · 合并时间 2026-05-28 11:50
修复 PD 分离模式下 cached_tokens 重复计数问题
建议所有使用 PD 分离模式且启用了 decode radix cache 的生产环境优先合并此 PR。值得关注的细节:通过播种 `already_computed` 来同步 prefill 和 decode 之间的状态,是一种简洁有效的状态传递模式,可参考用于类似的双阶段计数场景。
原始 PR · 作者 yao-matrix · 合并时间 2026-05-28 10:58
重构XPU Docker环境,改用uv并简化CI路径
值得精读以了解 Intel XPU 部署的最新实践,尤其注意 oneAPI 环境初始化问题的后续修复。设计上嵌套构建的依赖顺序和包管理器选择值得关注。
原始 PR · 作者 chunyuan-w · 合并时间 2026-05-28 10:53
修复 MiniMax-M2.7 在 CPU 上的运行问题
该 PR 值得合并,它解决了特定模型的 CPU 兼容性,且改动集中、设计合理。建议关注作者创建的 issue #26439 以跟踪后续优化(如融合 all-reduce、增加 CPU kernel 支持)。Review 中关于类型转换隐藏和条件精度的做法值得借鉴。
增强 Intel Xeon CPU CI 稳定性和测试覆盖
该 PR 显著提升了 Xeon CI 的可靠性和覆盖范围,设计合理,讨论中的问题均已澄清或解决。建议合并,并考虑后续将 `HF_TOKEN` 迁移至 GitHub Secrets 以增强安全性。
将 MI35x 上两个模型测试迁移为 nightly 测试
建议关注 nightly 运行结果,确保测试稳定通过;可在后续将类似资源密集型测试逐步迁移至 nightly。
参与讨论