#17255 fix tp capture in vit cuda graph
作者 narutolhy · 合并时间 2026-03-28 06:38
修复 ViT CUDA Graph 在 Tensor Parallelism 下通信捕获缺失的问题,提升正确性。
该 PR 值得精读,尤其关注 CUDA Graph 与分布式通信集成的设计模式,以及代码风格权衡;工程师可从中学习如何优雅处理可选功能集成。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 narutolhy · 合并时间 2026-03-28 06:38
修复 ViT CUDA Graph 在 Tensor Parallelism 下通信捕获缺失的问题,提升正确性。
该 PR 值得精读,尤其关注 CUDA Graph 与分布式通信集成的设计模式,以及代码风格权衡;工程师可从中学习如何优雅处理可选功能集成。
作者 Fridge003 · 合并时间 2026-03-28 06:05
拆分 runtime Docker 镜像发布为独立 workflow,优化 CI 管理。
对于负责 CI 和基础设施的工程师,建议阅读此 PR 以了解 Docker 发布流程的优化。变更相对直白,但值得关注新 workflow 的设计和潜在集成点,以及确保拆分后的同步机制。
作者 Qiaolin-Yu · 合并时间 2026-03-28 05:33
修复分布式单节点测试中GSM8K的flaky断言。
该PR变更简单,无需精读代码;对于工程师,可关注类似flaky测试修复模式(如阈值放宽策略),并可参考PR 21562等历史PR学习CI稳定性优化。
作者 Muqi1029 · 合并时间 2026-03-28 04:42
新增GC阈值参数以优化延迟敏感服务的性能。
建议工程师精读以了解如何通过GC配置优化延迟性能,特别关注_set_gc函数的调用时机和参数验证逻辑;技术管理者可关注此PR作为性能调优案例,但变更简单,无需深入设计决策。
作者 Fridge003 · 合并时间 2026-03-28 04:16
放宽CI测试阈值以减少不稳定性,涉及LoRA MoE和DeepSeek量化测试。
此PR适合快速浏览以了解CI调整;工程师可关注bot建议的重构机会,在未来PR中优化测试代码结构。
作者 merrymercy · 合并时间 2026-03-28 04:04
更新 DSV3 int8 MLA CI 测试的模型路径至 lmsys Hugging Face 组织。
该 PR 变更简单,无需精读。对于关注 CI 测试或模型管理的人员,可留意模型路径的标准化和迁移趋势。设计决策直白,无复杂技术权衡。
作者 huangtingwei9988 · 合并时间 2026-03-27 23:54
支持页面优先布局的 Hicache 和 MLA JIT 内核,优化 KV 缓存数据传输。
建议精读此 PR,重点关注 hicache.cuh 中的模板设计决策(如 kIsMLA 参数),以及如何集成新内核到现有内存池系统。设计权衡如代码重复与重构值得注意,可借鉴以优化类似内核实现。
作者 bixue2010 · 合并时间 2026-03-27 23:02
修复pause_generation中由于batch处理不当导致的tensor形状不匹配错误。
建议技术管理者和工程师精读此PR,以理解调度中batch处理的一致性原则。关注pause_generation函数的修改如何与get_next_batch_to_run保持逻辑对齐,以及模拟测试的设计如何隔离核心依赖,这对于维护调度系统的稳定性有参考价值。
参与讨论