#20972 Remove sync when enabling return_logprob
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-03-28 07:36
移除启用return_logprob时的同步操作,提升约25.8%的token吞吐量。
建议工程师精读此PR,关注异步数据处理的设计模式,以及如何平衡性能与正确性,对于涉及GPU-CPU数据传输的优化有参考价值。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-03-28 07:36
移除启用return_logprob时的同步操作,提升约25.8%的token吞吐量。
建议工程师精读此PR,关注异步数据处理的设计模式,以及如何平衡性能与正确性,对于涉及GPU-CPU数据传输的优化有参考价值。
原始 PR · 作者 zhangxiaolei123456 · 合并时间 2026-03-28 07:23
修复 Qwen3.5 在 fused MoE Triton tuning 中的架构解析错误。
对于关注 fused MoE 优化或 Qwen 模型支持的开发者,此 PR 值得快速浏览以了解配置处理细节;对于一般用户,无需深入阅读。
原始 PR · 作者 yushengsu-thu · 合并时间 2026-03-28 07:08
支持自动检测LoRA目标模块,简化适配器配置。
建议工程团队关注自动检测逻辑的设计,了解如何扩展支持新模块类型;测试部分的安全问题需后续修复;可精读utils.py中的auto_detect_lora_target_modules函数,学习模型扫描和模块归一化方法。
修复 ViT CUDA Graph 在 Tensor Parallelism 下通信捕获缺失的问题,提升正确性。
该 PR 值得精读,尤其关注 CUDA Graph 与分布式通信集成的设计模式,以及代码风格权衡;工程师可从中学习如何优雅处理可选功能集成。
拆分 runtime Docker 镜像发布为独立 workflow,优化 CI 管理。
对于负责 CI 和基础设施的工程师,建议阅读此 PR 以了解 Docker 发布流程的优化。变更相对直白,但值得关注新 workflow 的设计和潜在集成点,以及确保拆分后的同步机制。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-03-28 05:33
修复分布式单节点测试中GSM8K的flaky断言。
该PR变更简单,无需精读代码;对于工程师,可关注类似flaky测试修复模式(如阈值放宽策略),并可参考PR 21562等历史PR学习CI稳定性优化。
新增GC阈值参数以优化延迟敏感服务的性能。
建议工程师精读以了解如何通过GC配置优化延迟性能,特别关注_set_gc函数的调用时机和参数验证逻辑;技术管理者可关注此PR作为性能调优案例,但变更简单,无需深入设计决策。
放宽CI测试阈值以减少不稳定性,涉及LoRA MoE和DeepSeek量化测试。
此PR适合快速浏览以了解CI调整;工程师可关注bot建议的重构机会,在未来PR中优化测试代码结构。
参与讨论