缩短 gemma4 MoE 确定性测试运行时间
建议合并。该 PR 在保持测试有效性的前提下显著缩短了 CI 时间,属于高效的运维改进。
SGLang is a high-performance serving framework for large language models and multimodal models.
缩短 gemma4 MoE 确定性测试运行时间
建议合并。该 PR 在保持测试有效性的前提下显著缩短了 CI 时间,属于高效的运维改进。
修复 diffusers 后端运行时崩溃
此 PR 修复了因重构导致的回归,虽然修改简单但影响关键路径。建议精读,了解组件管理器的绑定模式,以便未来类似场景。同时需关注 #19213 对 CI 测试的补充。
修复测试队列竞争导致的CUDA IPC失败
简单的测试竞态修复,无需深入阅读。但拆分队列的模式(SPSC)值得在类似跨进程通信场景中参考。
修复 Ulysses SP 下 NCCL 死锁
此 PR 修复了一个关键的并发死锁问题,变更简洁且经过讨论,值得合并。建议在合并后执行一次包含 LTX2 SP 模式的 CI 测试以确认无回归。
原始 PR · 作者 polisettyvarma · 合并时间 2026-05-09 09:39
修复 XPU 上 is_arch_support_pdl 导入崩溃
该 PR 修复明确,改动精炼,建议合入。虽然只是条件导入的修正,但体现了跨平台兼容性设计的良好实践:对于仅在特定硬件上可用的特性,应采用条件导入并确保在不可用时有安全的 fallback。同时,注意条件表达式中对未定义符号的引用陷阱。
拆分 verified_id 为 bonus_tokens 和 accept_tokens
值得精读的命名重构范例,展示了如何系统地实施命名规约。但对功能无影响,可直接合并。
融合对角线与重计算优化 KDA prefill kernel 性能
值得精读。该 PR 展示了 Triton kernel 优化的完整思考:autotune 的权衡、kernel 融合的粒度选择、网格启发式设计。审查评论中的讨论解决了关键的正确性和性能问题,尤其是 exp vs exp2 的澄清、chunk_indices 计数修正、以及单配置回退原因。适合 attention kernel 开发者和对 Triton 性能优化感兴趣的技术人员深入阅读。
多节点禁用 Custom AR v2
该 PR 变更安全且设计合理,值得合入。reviewer 建议集中管理环境变量的思路值得推广。阅读者可以重点关注 `_handle_environment_variables` 中条件判断的位置(放在 CUDA graph 之前)和日志级别选择(warning)。
参与讨论