Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-14

#20016 hicache storage backend mooncake support ascend hixl

原始 PR · 作者 lawtherWu · 合并时间 2026-04-14 20:51

功能重要性 5.00 洞察度 6.00

修复Mooncake存储后端在Ascend HIXL环境下的初始化错误并扩展布局支持。

建议开发者在涉及NPU部署、Mooncake传输引擎或HiCache存储后端时精读此PR，特别关注初始化顺序的设计决策和'page_first_kv_spilt'布局的兼容性扩展。

hicachenpurun-ci

#22799 fix:[NPU]correct the full name of then Kimi model

原始 PR · 作者 loading66 · 合并时间 2026-04-14 20:15

文档重要性 1.00 洞察度 1.00

修正 Ascend NPU 文档中 Kimi 模型的组织名称拼写错误。

该 PR 不值得精读，除非您负责维护 Ascend NPU 文档或需要了解 Kimi 模型的确切路径。变更简单直接，没有值得关注的设计决策。

documentationnpu

#22795 [NPU] Offloading docs update

原始 PR · 作者 Hide-on-bushsh · 合并时间 2026-04-14 20:03

文档重要性 2.00 洞察度 1.00

更新 Ascend NPU 卸载功能文档，明确参数支持状态和使用约束。

该 PR 为纯文档更新，无需精读代码。对于关注 NPU 平台卸载功能演进的开发者，可快速浏览以了解参数支持状态的变化；对于技术管理者，可作为 NPU 功能成熟度提升的佐证。

documentationnpu

#22793 [Docs] Fix formatting of tool-call-parser options

原始 PR · 作者 xdtbynd · 合并时间 2026-04-14 19:21

文档重要性 1.70 洞察度 1.00

修复文档中工具调用解析器选项格式

该 PR 已合并，无需额外操作。推荐在以后的文档变更中注意表格内换行符后的空格一致性。

documentationnpu

#22707 [NPU] [DOC] Fix outdated descriptions in the NPU documentation

原始 PR · 作者 amote-i · 合并时间 2026-04-14 19:21

文档重要性 2.00 洞察度 1.00

更新Ascend NPU贡献指南中的过时描述和文件引用。

该PR为简单的文档更新，无需精读。对于NPU贡献者或文档维护者，可关注文件命名规范从“ascend”到“npu”的通用化趋势，这可能反映项目对多NPU硬件支持的统一命名约定。

documentationnpu

#21734 perf: optimize PCG inductor path for FP8 models

原始 PR · 作者 jasperjiaguo · 合并时间 2026-04-14 17:51

性能优化重要性 6.70 洞察度 6.00

优化PCG Inductor路径下FP8模型的GPU内核开销，提升嵌入性能24%。

建议精读此PR，关注如何权衡自定义内核与Inductor融合的设计决策，以及通过本地配置检查避免全局副作用的实现方式。对于从事编译器优化或量化开发的工程师，此PR提供了实际性能调优案例。

performancerefactorquant

#22525 fix: EPLB dispatch OOB when shared experts fusion enabled under DeepEP

原始 PR · 作者 xutizhou · 合并时间 2026-04-14 17:33

缺陷修复重要性 5.00 洞察度 4.00

修复DeepEP后端下共享专家融合与EPLB同时启用时的索引越界问题。

该PR值得精读，特别是对于从事MoE层优化和DeepEP后端开发的工程师。关注点：1. 共享专家融合与EPLB调度的冲突机制；2. 条件分支的设计权衡（可读性 vs 代码重复）；3. 张量操作对性能的潜在影响。

bugfixmoerun-ci

#17706 [bugfix] avoid attention padding tokens computation in pcg

原始 PR · 作者 Chen-0210 · 合并时间 2026-04-14 16:08

缺陷修复重要性 6.00 洞察度 6.00

修复PCG模式下注意力填充令牌计算问题，避免未定义行为和输出损坏。

该PR值得精读，特别是radix_attention.py和radix_linear_attention.py中的切片逻辑设计，展示了如何在保持原有batch对象身份的同时排除填充令牌。建议关注out_cache_loc的动态修改和恢复机制，以及讨论中关于字段命名和缓冲区初始化的技术权衡。

bugfixrun-cikv-cache

第 254 / 357 页 · 共 2850 条

上一页 1 … 252 253 254 255 256 … 357 下一页

sgl-project/sglang

PR 列表

#20016 hicache storage backend mooncake support ascend hixl

#22799 fix:[NPU]correct the full name of then Kimi model

#22795 [NPU] Offloading docs update

#22793 [Docs] Fix formatting of tool-call-parser options

#22707 [NPU] [DOC] Fix outdated descriptions in the NPU documentation

#21734 perf: optimize PCG inductor path for FP8 models

#22525 fix: EPLB dispatch OOB when shared experts fusion enabled under DeepEP

#17706 [bugfix] avoid attention padding tokens computation in pcg

参与讨论