回滚融合采样内核,恢复标准PyTorch温度缩放和softmax操作。
建议技术管理者关注此次回滚背后的根本原因(如性能评估或bug发现),以及是否计划后续优化。工程师可精读以理解融合内核的潜在问题,并学习代码回滚和性能权衡的决策过程。
SGLang is a high-performance serving framework for large language models and multimodal models.
回滚融合采样内核,恢复标准PyTorch温度缩放和softmax操作。
建议技术管理者关注此次回滚背后的根本原因(如性能评估或bug发现),以及是否计划后续优化。工程师可精读以理解融合内核的潜在问题,并学习代码回滚和性能权衡的决策过程。
为内核发布工作流添加版本号格式提示,提升触发准确性。
该 PR 变更简单直接,无需精读。对于负责 CI/CD 或内核发布的工程师,可关注此提示以规范触发流程。
修复 aarch64 内核发布构建失败,优化 wheel 重命名脚本的 Python 路径。
建议工程师在修改构建脚本时关注此类缓存管理和路径问题,此 PR 提供了处理 Docker buildx 构建器状态和 Python 环境隔离的实用模式,值得参考以提升 CI 健壮性。
临时禁用多模态生成准确性CI测试,减少CI失败。
此PR简单明了,无需深度技术审查,适合快速合并。建议团队设置跟踪机制,确保在测试稳定后及时恢复准确性测试,并关注相关多模态生成功能的演进。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-03 17:33
修复MoE模型在ep>1时CUDA图捕获缺失_MOE_TP组导致的段错误。
该PR值得精读,特别是graph_capture()的重构设计展示了如何安全地处理多个可能为None的通信组捕获,以及CP禁用条件的添加反映了对CUDA图支持边界的明确。关注点:1. 使用ExitStack和seen集合的模式;2. CP与CUDA图的兼容性决策。
为 AMD ROCm Dockerfile 添加 AITER_COMMIT 构建参数支持,提升构建灵活性。
该 PR 变更直接且目标明确,适合快速浏览以了解构建参数化模式。值得关注的设计决策是采用 `ENV AITER_COMMIT="${AITER_COMMIT:-${AITER_COMMIT_DEFAULT}}"` 实现参数覆盖与默认值回退,这是一种常见的 Docker 配置模式。review 中关于代码冗余和脚本健壮性的讨论提供了改进思路,但未在本次 PR 中解决,可作为后续优化参考。
修复 TRTLLM MLA 后端中 CUDA 图回放路径的步长不一致问题,确保推测解码正确性。
该 PR 值得精读,特别是对关注 CUDA 图优化、推测解码或 TRTLLM MLA 后端的工程师。关注设计决策:如何通过统一步长解决布局不匹配问题,以及移除冗余路径的权衡。
原始 PR · 作者 alphabetc1 · 合并时间 2026-04-03 16:32
将HTTP服务器认证测试文件迁移至CI注册目录,简化导入逻辑。
该PR变更简单,适合快速浏览以了解CI测试注册模式。值得关注的设计决策是团队选择简化导入逻辑而非保持隔离性,这可能反映CI环境已标准化依赖。建议关注未来类似测试迁移时是否统一此模式,以及是否出现因依赖缺失导致的测试失败。
参与讨论