Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-11
基础设施 重要性 5.01 洞察度 2.00

为 AMD 夜间测试增加 VRAM 清理步骤

建议合并此 PR。它是 CI 质量的常规维护,与 PR 测试工作流的行为对齐,能有效提升夜间测试的可靠性。对于需要维护 CI 管线的团队,本 PR 的改动模式(在容器启动前清理 VRAM)值得在其他类似场景(如共享 runner 的多租户环境)中参考。

缺陷修复 重要性 3.49 洞察度 5.00

为 AMD CI lmms-eval 安装增加重试与安全目录

建议精读此 PR,它展示了处理 CI 中网络瞬态故障和 git 权限问题的典型模式。`git_clone_with_retry` 和 `docker cp` + `safe.directory` 的组合可复用于类似场景。

缺陷修复 重要性 5.71 洞察度 3.00

NPU MTP warmup 因 padding token 维度不匹配崩溃修复

值得合入,修复明确且验证充分。review 中的建议(使用 `forward_batch.batch_size`)可作为后续优化参考,但不影响当前正确性。

#20177 [NPU]adapt multibatch fia ops

原始 PR · 作者 McZyWu · 合并时间 2026-05-11 09:44

性能优化 重要性 6.53 洞察度 5.00

NPU FIA 算子多批处理优化,替代逐序列循环

建议阅读该 PR,了解 NPU 注意力优化如何利用 CANN 多 batch 特性。关注 fia_mask 硬编码问题,后续可能需要提 PR 修复。设计决策——用 TND 布局替换 BSND 并处理 padding——值得参考。

缺陷修复 重要性 6.05 洞察度 5.00

修复 NPU 推测解码中 mrope_position 竞态条件

值得精读。展示了异步流竞态修复的典型模式:在等待流同步后重新计算依赖值,并正确同步到 CUDA graph buffer。对理解 speculative decoding 中的流管理和 CUDA graph 缓冲有参考价值。

缺陷修复 重要性 5.97 洞察度 5.00

修复确定性推理未禁用 FlashInfer allreduce 融合的问题

该 PR 值得合并,修复了重要的回归问题。建议阅读其设计思路:通过提前设置强制禁用标记来拦截模型特定调整逻辑,是一种简洁且健壮的模式,可推广到类似场景。

缺陷修复 重要性 5.88 洞察度 6.00

修复目标/草稿隐藏层大小不匹配时的推测解码崩溃

值得精读,特别是对推测解码内部形状管理的分析。展示了如何诊断和修复一个 phase 边界上的形状问题。建议关注 decode 与 extend 阶段不同形状处理的决策逻辑,以及未来可能的清除计划。

参与讨论