Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-11

#24950 fix: SGLANG_RADIX_FORCE_MISS chunk-cache passthrough

原始 PR · 作者 ch-wan · 合并时间 2026-05-11 15:07

缺陷修复重要性 6.45 洞察度 4.00

修复 chunk cache 在 FORCE_MISS 标志下崩溃

建议快速合并。这是一个明确的小范围 bugfix，修复了特定配置下的崩溃，测试覆盖到位，代码简洁。

bugfixkv-cachescheduling

#24942 Add CODEOWNERS for EPD module

原始 PR · 作者 ShangmingCai · 合并时间 2026-05-11 14:42

其他重要性 2.42 洞察度 1.00

为EPD模块添加CODEOWNERS配置

该PR属于基础设施配置调整，建议合并。无需进一步审查。

infra

#24799 [AMD] Fix DeepSeek import cascade by supporting both pre- and post-#2958 aiter `fused_qk_rmsnorm` APIs

原始 PR · 作者 bingxche · 合并时间 2026-05-11 14:41

缺陷修复重要性 7.40 洞察度 6.00

兼容新旧 aiter fused_qk_rmsnorm API 修复 AMD DeepSeek 崩溃

值得精读。此 PR 展示了如何通过特性探测优雅地处理上游库 API 变更，避免破坏性升级。设计模式值得借鉴：保持调用侧接口不变，使用适配器模式兼容新旧 API。特别推荐给从事硬件后端集成或内核库依赖管理的工程师。

amdbugfixdeepseek

#24926 spec: centralize EagleDraft{,Extend}Input.hidden_states shape

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-11 13:49

重构重要性 7.16 洞察度 5.00

集中 EagleDraftInput hidden_states 形状决策

建议精读该 PR，了解 SGLang speculative decoding 中 hidden_states 的形状决定逻辑，以及如何通过类方法实现单一真相来源的设计模式。同时为理解后续 PR（#21058 相关）提供基础。

refactorspeculative-decoding

#24660 [diffusion] fix: further align ltx2.3 accuracy with tp

原始 PR · 作者 mickqian · 合并时间 2026-05-11 13:42

缺陷修复重要性 9.18 洞察度 6.00

修复LTX-2/2.3扩散模型多GPU精度对齐与HQ两阶段路径

建议所有使用LTX-2/2.3模型进行推理和CI测试的团队仔细阅读此PR。其中关于CFG引导分支合并、Attention Backend选择、RoPE精度控制的决策值得在其它扩散模型推理框架中借鉴。

diffusionbugfixconsistency

#24798 [Diffusion][NPU][GPU] Fix SANA model execution error

原始 PR · 作者 LLThomas · 合并时间 2026-05-11 13:41

缺陷修复重要性 6.26 洞察度 6.00

修复 SANA 模型在 NPU 和 GPU 上的执行错误

建议精读，尤其是 Gemma2 注意力掩码的重构（从浮点到布尔）和 DPM scheduler 的参数规范化，这是跨后端的通用改进。GEGLU 融合算子的实现方式可作为其他激活函数 NPU 后端的参考。

diffusionbugfixnpu

#24540 [NPU] [Bugfix] Wan quantization fix

原始 PR · 作者 OrangeRedeng · 合并时间 2026-05-11 13:32

缺陷修复重要性 7.57 洞察度 5.00

修复 Wan 模型在 NPU 上的量化方案识别

该 PR 修复了关键 regression，改动虽小但涉及核心量化配置路径，值得精读。设计上通过 reverse_param_names_mapping 解耦内部命名与规范命名的做法值得关注，可在未来支持更多量化模型时复用。

bugfixnpuquant

#24662 Breakable Cuda Graph Support for bs > 1

原始 PR · 作者 Oasis-Git · 合并时间 2026-05-11 13:28

功能重要性 7.90 洞察度 6.00

支持 bs>1 的可中断 CUDA 图执行

值得精读。该 PR 体现了深刻的技术洞察：通过重新划定 CUDA 图捕获边界，使图与 batch size 解耦，是使图化预填充支持多请求的关键设计。代码改动简洁（仅 1 文件 +84/-57），但思路值得借鉴。建议关注后续改进 layer_model 解析的多模型兼容性和测试覆盖。

performanceschedulingfeature

第 147 / 357 页 · 共 2850 条

上一页 1 … 145 146 147 148 149 … 357 下一页