Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-11

#24612 [AMD] VRAM cleanup step to AMD nightly test workflows

原始 PR · 作者 yctseng0211 · 合并时间 2026-05-11 11:08

基础设施重要性 5.01 洞察度 2.00

为 AMD 夜间测试增加 VRAM 清理步骤

建议合并此 PR。它是 CI 质量的常规维护，与 PR 测试工作流的行为对齐，能有效提升夜间测试的可靠性。对于需要维护 CI 管线的团队，本 PR 的改动模式（在容器启动前清理 VRAM）值得在其他类似场景（如共享 runner 的多租户环境）中参考。

amdcibugfix

#24615 [AMD] Retry logic for lmms-eval installation

原始 PR · 作者 yctseng0211 · 合并时间 2026-05-11 10:55

缺陷修复重要性 3.49 洞察度 5.00

为 AMD CI lmms-eval 安装增加重试与安全目录

建议精读此 PR，它展示了处理 CI 中网络瞬态故障和 git 权限问题的典型模式。`git_clone_with_retry` 和 `docker cp` + `safe.directory` 的组合可复用于类似场景。

amdcibugfix

#23819 [NPU] Fix warmup error with --disable-cuda-graph and mtp

原始 PR · 作者 iridiumine · 合并时间 2026-05-11 09:53

缺陷修复重要性 5.71 洞察度 3.00

NPU MTP warmup 因 padding token 维度不匹配崩溃修复

值得合入，修复明确且验证充分。review 中的建议（使用 `forward_batch.batch_size`）可作为后续优化参考，但不影响当前正确性。

npubugfixperformance

#20177 [NPU]adapt multibatch fia ops

原始 PR · 作者 McZyWu · 合并时间 2026-05-11 09:44

性能优化重要性 6.53 洞察度 5.00

NPU FIA 算子多批处理优化，替代逐序列循环

建议阅读该 PR，了解 NPU 注意力优化如何利用 CANN 多 batch 特性。关注 fia_mask 硬编码问题，后续可能需要提 PR 修复。设计决策——用 TND 布局替换 BSND 并处理 padding——值得参考。

npuperformance

#23423 [NPU] Fix mrope_position computation in Eagle Worker v2 with PlanStream

原始 PR · 作者 silencejade · 合并时间 2026-05-11 09:43

缺陷修复重要性 6.05 洞察度 5.00

修复 NPU 推测解码中 mrope_position 竞态条件

值得精读。展示了异步流竞态修复的典型模式：在等待流同步后重新计算依赖值，并正确同步到 CUDA graph buffer。对理解 speculative decoding 中的流管理和 CUDA graph 缓冲有参考价值。

npubugfixspeculative-decoding

#23891 [NPU] Support radix-cache with mamba-extra-buffer for Qwen3.5

原始 PR · 作者 silencejade · 合并时间 2026-05-11 09:40

缺陷修复重要性 4.54 洞察度 3.00

NPU 启用 Qwen3.5 前缀缓存支持

PR 改动简单明确，建议直接合并。有兴趣了解 NPU 端 mamba 调度策略演进的人员可以关注后续针对 NPU 的测试文档更新。

npubugfixscheduling

#24629 [Fix] Disable FlashInfer allreduce fusion under deterministic inference

原始 PR · 作者 Jiminator · 合并时间 2026-05-11 09:04

缺陷修复重要性 5.97 洞察度 5.00

修复确定性推理未禁用 FlashInfer allreduce 融合的问题

该 PR 值得合并，修复了重要的回归问题。建议阅读其设计思路：通过提前设置强制禁用标记来拦截模型特定调整逻辑，是一种简洁且健壮的模式，可推广到类似场景。

bugfixperformancerun-ci

#24217 fix: STANDALONE spec-decode hidden-size mismatch crash

原始 PR · 作者 brian030128 · 合并时间 2026-05-11 08:48

缺陷修复重要性 5.88 洞察度 6.00

修复目标/草稿隐藏层大小不匹配时的推测解码崩溃

值得精读，特别是对推测解码内部形状管理的分析。展示了如何诊断和修复一个 phase 边界上的形状问题。建议关注 decode 与 extend 阶段不同形状处理的决策逻辑，以及未来可能的清除计划。

bugfixspeculative-decodingconsistency

第 149 / 357 页 · 共 2850 条

上一页 1 … 147 148 149 150 151 … 357 下一页