移除冗余的 MoE 评估测试文件,优化测试套件结构。
此 PR 变更直接,无需深入审查。建议工程师快速浏览以了解测试清理实践,但对于代码学习价值有限。
SGLang is a high-performance serving framework for large language models and multimodal models.
移除冗余的 MoE 评估测试文件,优化测试套件结构。
此 PR 变更直接,无需深入审查。建议工程师快速浏览以了解测试清理实践,但对于代码学习价值有限。
新增 CompletionSampler,支持通过 /v1/completions API 进行非聊天模型评估。
建议工程团队精读此 PR,关注 `CompletionSampler` 的设计如何与现有 `ChatCompletionSampler` 集成,以及参数提取的优化方式。对于使用非聊天模型的开发者,此功能值得关注。
原始 PR · 作者 happierpig · 合并时间 2026-04-01 07:32
为MOE A2A后端添加自定义选项,以支持正确处理require_mlp_tp_gather。
该PR变更简单机械,无需深度精读,但关注MOE模块或后端集成的工程师可快速浏览以了解自定义选项的添加方式,作为基础设施扩展的参考案例。
移除GPT-OSS、Kimi-Linear和Qwen3 Next模型的冗余PCG测试文件。
该PR变更简单,不值得深入精读,但可以作为了解PCG默认启用策略和测试清理趋势的参考。建议团队关注类似#21485的PR,以把握测试基础设施的演进方向。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-01 07:09
添加用于 nightly dev Docker 镜像的 Trivy 漏洞扫描工作流。
建议阅读此 PR 以学习如何在 CI/CD 中集成安全扫描工具,关注其使用自托管运行器、优化扫描配置以避免超时、以及处理输入安全性的设计决策,适用于类似基础设施改进场景。
通过本地缓存 Nvidia wheels,避免 CI 中每次运行重复下载 830 MB 文件,显著缩短安装时间。
对于 CI 维护者和工程师,此 PR 值得关注,展示了如何通过本地缓存和完整性验证优化大型依赖下载。建议学习其设计模式,并考虑推广到其他类似 CI 场景以提升效率。
修复Blackwell GPU上驱动>=595时triton_kernels MOE后端的段错误,确保GPT-OSS模型CI测试通过。
建议工程团队精读此PR,重点关注server_args.py中的后端选择设计决策和common.py中的驱动检测实现,以理解硬件兼容性处理的模式。同时,建议未来测试中覆盖更多驱动版本组合以确保鲁棒性。
原始 PR · 作者 weireweire · 合并时间 2026-04-01 06:20
修复CUDA图生成中最大批次大小未被包含的错误,避免性能回退。
建议技术管理者关注此PR中的设计权衡:在效率与代码安全性之间选择更安全的实现。工程师可从中学习如何在review中处理优化建议与鲁棒性考虑。变更较小,但讨论有价值,值得快速浏览以理解性能优化细节。
参与讨论