#21283 Refine diffusion skills and align JIT kernel docs with the new CI flow
作者 BBuf · 合并时间 2026-03-24 14:38
优化扩散技能文档结构,更新JIT内核文档以适配新CI流程。
建议:对于技术管理者,此PR值得快速浏览以了解文档更新和CI流程对齐;对于工程师,可参考更新后的技能文档进行扩散模型开发和性能分析,但无需深入代码审查。关注点:技能文件重组后的引用一致性、CI注册说明的准确性。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 BBuf · 合并时间 2026-03-24 14:38
优化扩散技能文档结构,更新JIT内核文档以适配新CI流程。
建议:对于技术管理者,此PR值得快速浏览以了解文档更新和CI流程对齐;对于工程师,可参考更新后的技能文档进行扩散模型开发和性能分析,但无需深入代码审查。关注点:技能文件重组后的引用一致性、CI注册说明的准确性。
作者 ch-wan · 合并时间 2026-03-24 13:14
回滚吞吐量度量计算更改,恢复使用总延迟作为分母。
此PR变更简单,不值得深入精读。建议关注回滚背后的原因,可能涉及度量标准的设计权衡,推荐查阅issue #18712了解详细讨论。
作者 Qiaolin-Yu · 合并时间 2026-03-24 12:45
暂时禁用 TestReturnRoutedExperts 测试,因为它在 CI 中不稳定。
变更简单机械,无需深入阅读代码。建议关注 Issue #21266 的解决状态,并定期检查是否有类似 flaky 测试,以维护测试套件的可靠性。
作者 Baidu-AIAK · 合并时间 2026-03-24 12:31
通过双流执行重叠NSA CP key all-gather与query计算,提升DeepSeek-V3.2预填充性能。
建议精读此PR以学习双流执行在重叠通信与计算中的应用。关注条件检查逻辑和同步机制的设计,以及性能分析方法如NVIDIA Nsight Systems的使用。
作者 merrymercy · 合并时间 2026-03-24 12:31
更新JIT内核技能文档以适配新的 `run_suite.py` CI注册流程。
建议开发者快速浏览此PR以了解JIT内核CI注册的新流程,关注`register_cuda_ci`的使用和套件名称,无需深入分析代码设计,仅作为文档更新参考。
作者 merrymercy · 合并时间 2026-03-24 12:17
将 JIT 内核 CI 迁移到中央化注册系统,提升测试可维护性。
建议技术管理者关注此 PR 以了解 CI 注册系统的演进,工程师可精读 test/run_suite.py 的修改和 register_cuda_ci 的调用模式,作为未来添加测试的参考。设计决策值得学习,包括套件划分、测试时间估算和禁用处理。
作者 hzh0425 · 合并时间 2026-03-24 11:02
为混合Mamba模型添加Mamba状态卸载支持和混合缓存控制器,提升缓存命中率。
建议工程师重点阅读`hybrid_cache_controller.py`和`hi_mamba_radix_cache.py`,关注`PoolTransfer`设计如何抽象多池传输,以及`MambaPoolHost`的布局优化对性能的影响。此PR展示了缓存系统可扩展性的重要演进,适合学习分层缓存设计。
作者 Ratish1 · 合并时间 2026-03-24 10:15
修复Z-Image序列并行sharding,支持肖像和填充分辨率,避免图像损坏。
建议技术管理者和工程师精读此PR,特别是_build_zimage_sp_plan的设计决策和denoising.py中的gather逻辑修改,以理解序列并行中处理图像几何形状的技术权衡。关注风险点,确保测试充分覆盖新路径,并评估对其他管道的潜在影响。
参与讨论