#21786 [moe] add customized option to moe-a2a-backend
原始 PR · 作者 happierpig · 合并时间 2026-04-01 07:32
为MOE A2A后端添加自定义选项,以支持正确处理require_mlp_tp_gather。
该PR变更简单机械,无需深度精读,但关注MOE模块或后端集成的工程师可快速浏览以了解自定义选项的添加方式,作为基础设施扩展的参考案例。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 happierpig · 合并时间 2026-04-01 07:32
为MOE A2A后端添加自定义选项,以支持正确处理require_mlp_tp_gather。
该PR变更简单机械,无需深度精读,但关注MOE模块或后端集成的工程师可快速浏览以了解自定义选项的添加方式,作为基础设施扩展的参考案例。
移除GPT-OSS、Kimi-Linear和Qwen3 Next模型的冗余PCG测试文件。
该PR变更简单,不值得深入精读,但可以作为了解PCG默认启用策略和测试清理趋势的参考。建议团队关注类似#21485的PR,以把握测试基础设施的演进方向。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-01 07:09
添加用于 nightly dev Docker 镜像的 Trivy 漏洞扫描工作流。
建议阅读此 PR 以学习如何在 CI/CD 中集成安全扫描工具,关注其使用自托管运行器、优化扫描配置以避免超时、以及处理输入安全性的设计决策,适用于类似基础设施改进场景。
通过本地缓存 Nvidia wheels,避免 CI 中每次运行重复下载 830 MB 文件,显著缩短安装时间。
对于 CI 维护者和工程师,此 PR 值得关注,展示了如何通过本地缓存和完整性验证优化大型依赖下载。建议学习其设计模式,并考虑推广到其他类似 CI 场景以提升效率。
修复Blackwell GPU上驱动>=595时triton_kernels MOE后端的段错误,确保GPT-OSS模型CI测试通过。
建议工程团队精读此PR,重点关注server_args.py中的后端选择设计决策和common.py中的驱动检测实现,以理解硬件兼容性处理的模式。同时,建议未来测试中覆盖更多驱动版本组合以确保鲁棒性。
原始 PR · 作者 weireweire · 合并时间 2026-04-01 06:20
修复CUDA图生成中最大批次大小未被包含的错误,避免性能回退。
建议技术管理者关注此PR中的设计权衡:在效率与代码安全性之间选择更安全的实现。工程师可从中学习如何在review中处理优化建议与鲁棒性考虑。变更较小,但讨论有价值,值得快速浏览以理解性能优化细节。
原始 PR · 作者 yushengsu-thu · 合并时间 2026-04-01 05:06
为MoE模型添加共享外部专家LoRA支持,并提升Qwen3-30B-A3B-Instruct-2507兼容性。
建议技术管理者和工程师精读此PR,关注以下设计决策:共享权重的内存优化策略(通过expert_dim=1减少缓冲区大小)、运行时扩展的性能权衡、以及自动检测机制的局限性。同时,review中提到的缓冲区零化问题和性能优化值得优先考虑,以确保系统稳定性和效率。
修复CI中无效的is_base_mistral补丁,避免HF API速率限制导致的429错误。
该PR值得精读,特别是对于处理外部库API调用和CI环境配置的开发者。关注如何有效补丁局部函数以及设计补丁方案时的权衡,如直接替换类方法vs使用mock库。
参与讨论