Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-13 17:27 同步状态：空闲下次计划：2026-06-13 18:27

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-11

#24798 [Diffusion][NPU][GPU] Fix SANA model execution error

原始 PR · 作者 LLThomas · 合并时间 2026-05-11 13:41

缺陷修复重要性 6.26 洞察度 6.00

修复 SANA 模型在 NPU 和 GPU 上的执行错误

建议精读，尤其是 Gemma2 注意力掩码的重构（从浮点到布尔）和 DPM scheduler 的参数规范化，这是跨后端的通用改进。GEGLU 融合算子的实现方式可作为其他激活函数 NPU 后端的参考。

diffusionbugfixnpu

#24540 [NPU] [Bugfix] Wan quantization fix

原始 PR · 作者 OrangeRedeng · 合并时间 2026-05-11 13:32

缺陷修复重要性 7.57 洞察度 5.00

修复 Wan 模型在 NPU 上的量化方案识别

该 PR 修复了关键 regression，改动虽小但涉及核心量化配置路径，值得精读。设计上通过 reverse_param_names_mapping 解耦内部命名与规范命名的做法值得关注，可在未来支持更多量化模型时复用。

bugfixnpuquant

#24662 Breakable Cuda Graph Support for bs > 1

原始 PR · 作者 Oasis-Git · 合并时间 2026-05-11 13:28

功能重要性 7.90 洞察度 6.00

支持 bs>1 的可中断 CUDA 图执行

值得精读。该 PR 体现了深刻的技术洞察：通过重新划定 CUDA 图捕获边界，使图与 batch size 解耦，是使图化预填充支持多请求的关键设计。代码改动简洁（仅 1 文件 +84/-57），但思路值得借鉴。建议关注后续改进 layer_model 解析的多模型兼容性和测试覆盖。

performanceschedulingfeature

#24918 :memo: docs(diffusion): add MXFP8 quantization docs for Wan2.2 on Ascend NPU

原始 PR · 作者 TallMessiWu · 合并时间 2026-05-11 13:13

文档重要性 3.05 洞察度 2.00

补充 Wan2.2 Ascend NPU MXFP8 量化文档

该 PR 为标准文档补充，适合所有使用 Ascend NPU 的 Diffusion 用户参考。源码层风险已由作者标注为不适用，无需额外关注。

documentationquantnpu

#24914 Fix sgl-kernel-mla-test path after test was moved to test/manual

原始 PR · 作者 fzyzcjy · 合并时间 2026-05-11 13:00

缺陷修复重要性 4.53 洞察度 3.00

修复 CI 中 sgl-kernel-mla-test 路径错误

建议快速合并此 PR，因为它修复了阻塞所有 PR 的 CI 回归问题。同时值得关注的是优化路径过滤的设计决策：避免纯配置变更触发昂贵构建，这是一个良好的 CI 实践。

cibugfixrun-ci

#24850 [MoE] Fix NaN in flashinfer TRT-LLM A2A dispatch by sanitizing padding slots

原始 PR · 作者 minosfuture · 合并时间 2026-05-11 12:57

缺陷修复重要性 5.12 洞察度 3.00

修复 Flashinfer A2A 调度中 padding slot 导致的 NaN

该 PR 为典型的单行关键 bugfix，推荐阅读以理解 A2A 调度中 padding slot sanitize 的必要性。设计上的教训是：新参数默认值应为安全值（如 -1），而不是跳过清理。值得关注的决策：通过修改 dispatch 调用而非修改 dispatcher 内部逻辑，保持了最小侵入性。

bugfixmoeperformance

#24871 [Rerank] Use heapq.nlargest for top_n to avoid full sort

原始 PR · 作者 tjdharamsi · 合并时间 2026-05-11 12:48

性能优化重要性 5.70 洞察度 4.00

用 heapq.nlargest 替代全排序优化 Rerank 响应构建

该 PR 实现简洁、风险低、有理论优势，建议合并。适合作为性能优化的范例来阅读。

performancerefactor

#24825 [AMD] DSv4 nightly hotfix + schedule-aware --continue-on-error in AMD CI

原始 PR · 作者 bingxche · 合并时间 2026-05-11 12:46

缺陷修复重要性 4.71 洞察度 4.00

修复 AMD CI DSv4 参数回退和 cron 续跑问题

推荐 AMD 和 CI 维护者关注本次 continue-on-error 条件的设计模式（`github.event_name == 'schedule'`），以及跨分支配置兼容性处理。对于其他硬件后端，可借鉴类似的条件感知方式。本 PR 改动直观、测试充分，值得精读。

amdcideepseek

第 187 / 396 页 · 共 3165 条

上一页 1 … 185 186 187 188 189 … 396 下一页