Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-09

#24754 Reduce gemma4 moe deterministic test runtime

原始 PR · 作者 kpham-sgl · 合并时间 2026-05-09 11:46

测试 重要性 4.09 洞察度 2.00

缩短 gemma4 MoE 确定性测试运行时间

建议合并。该 PR 在保持测试有效性的前提下显著缩短了 CI 时间,属于高效的运维改进。

#24739 fix patch_torch test queue race

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-09 11:25

缺陷修复 重要性 5.72 洞察度 3.00

修复测试队列竞争导致的CUDA IPC失败

简单的测试竞态修复,无需深入阅读。但拆分队列的模式(SPSC)值得在类似跨进程通信场景中参考。

#24600 fix is_arch_support_pdl function usage

原始 PR · 作者 polisettyvarma · 合并时间 2026-05-09 09:39

缺陷修复 重要性 5.80 洞察度 4.00

修复 XPU 上 is_arch_support_pdl 导入崩溃

该 PR 修复明确,改动精炼,建议合入。虽然只是条件导入的修正,但体现了跨平台兼容性设计的良好实践:对于仅在特定硬件上可用的特性,应采用条件导入并确保在不可用时有安全的 fallback。同时,注意条件表达式中对未定义符号的引用陷阱。

性能优化 重要性 7.52 洞察度 8.00

融合对角线与重计算优化 KDA prefill kernel 性能

值得精读。该 PR 展示了 Triton kernel 优化的完整思考:autotune 的权衡、kernel 融合的粒度选择、网格启发式设计。审查评论中的讨论解决了关键的正确性和性能问题,尤其是 exp vs exp2 的澄清、chunk_indices 计数修正、以及单配置回退原因。适合 attention kernel 开发者和对 Triton 性能优化感兴趣的技术人员深入阅读。

#24729 Disable Custom AR V2 when in multi-node

原始 PR · 作者 b8zhong · 合并时间 2026-05-09 08:50

缺陷修复 重要性 5.03 洞察度 3.00

多节点禁用 Custom AR v2

该 PR 变更安全且设计合理,值得合入。reviewer 建议集中管理环境变量的思路值得推广。阅读者可以重点关注 `_handle_environment_variables` 中条件判断的位置(放在 CUDA graph 之前)和日志级别选择(warning)。

参与讨论