临时禁用多模态生成准确性CI测试,减少CI失败。
此PR简单明了,无需深度技术审查,适合快速合并。建议团队设置跟踪机制,确保在测试稳定后及时恢复准确性测试,并关注相关多模态生成功能的演进。
SGLang is a high-performance serving framework for large language models and multimodal models.
临时禁用多模态生成准确性CI测试,减少CI失败。
此PR简单明了,无需深度技术审查,适合快速合并。建议团队设置跟踪机制,确保在测试稳定后及时恢复准确性测试,并关注相关多模态生成功能的演进。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-03 17:33
修复MoE模型在ep>1时CUDA图捕获缺失_MOE_TP组导致的段错误。
该PR值得精读,特别是graph_capture()的重构设计展示了如何安全地处理多个可能为None的通信组捕获,以及CP禁用条件的添加反映了对CUDA图支持边界的明确。关注点:1. 使用ExitStack和seen集合的模式;2. CP与CUDA图的兼容性决策。
为 AMD ROCm Dockerfile 添加 AITER_COMMIT 构建参数支持,提升构建灵活性。
该 PR 变更直接且目标明确,适合快速浏览以了解构建参数化模式。值得关注的设计决策是采用 `ENV AITER_COMMIT="${AITER_COMMIT:-${AITER_COMMIT_DEFAULT}}"` 实现参数覆盖与默认值回退,这是一种常见的 Docker 配置模式。review 中关于代码冗余和脚本健壮性的讨论提供了改进思路,但未在本次 PR 中解决,可作为后续优化参考。
修复 TRTLLM MLA 后端中 CUDA 图回放路径的步长不一致问题,确保推测解码正确性。
该 PR 值得精读,特别是对关注 CUDA 图优化、推测解码或 TRTLLM MLA 后端的工程师。关注设计决策:如何通过统一步长解决布局不匹配问题,以及移除冗余路径的权衡。
原始 PR · 作者 alphabetc1 · 合并时间 2026-04-03 16:32
将HTTP服务器认证测试文件迁移至CI注册目录,简化导入逻辑。
该PR变更简单,适合快速浏览以了解CI测试注册模式。值得关注的设计决策是团队选择简化导入逻辑而非保持隔离性,这可能反映CI环境已标准化依赖。建议关注未来类似测试迁移时是否统一此模式,以及是否出现因依赖缺失导致的测试失败。
原始 PR · 作者 monkeyLoveding · 合并时间 2026-04-03 16:22
为 NPU CI 环境添加 OpenGL 依赖 libgl1-mesa-glx 和 libgl1-mesa-dri。
对于大多数开发者,此 PR 无需深入阅读,属于常规基础设施维护。若关注 NPU 或 CI 依赖管理,可简要查看变更文件。
原始 PR · 作者 michaelzhang-ai · 合并时间 2026-04-03 16:01
为 AMD MI30x 和 MI35x 添加 MiniMax-M2.5 模型的夜间性能基准测试。
对于关注 AMD 硬件性能测试和 CI 扩展的工程师,此 PR 值得精读以了解如何将性能基准测试集成到现有 CI 模式中,特别是 continue-on-error 策略和准确性与性能结合的设计决策。对于其他读者,可重点关注测试文件的结构和配置,以借鉴类似测试的编写方法。
为 AMD MI300/MI355 启用 FP8 KV 缓存和 FP8 注意力内核,提升 NSA 性能。
该 PR 值得精读,特别是关注 FP8 注意力内核的设计(如缩放常量处理和融合量化路径),以及如何针对不同硬件(MI300 vs MI355)优化缓存写入。建议工程師学习其性能优化技巧和 AMD 特定代码集成模式。
参与讨论