Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-04-14
功能 重要性 5.00 洞察度 6.00

修复Mooncake存储后端在Ascend HIXL环境下的初始化错误并扩展布局支持。

建议开发者在涉及NPU部署、Mooncake传输引擎或HiCache存储后端时精读此PR,特别关注初始化顺序的设计决策和'page_first_kv_spilt'布局的兼容性扩展。

文档 重要性 1.00 洞察度 1.00

修正 Ascend NPU 文档中 Kimi 模型的组织名称拼写错误。

该 PR 不值得精读,除非您负责维护 Ascend NPU 文档或需要了解 Kimi 模型的确切路径。变更简单直接,没有值得关注的设计决策。

#22795 [NPU] Offloading docs update

原始 PR · 作者 Hide-on-bushsh · 合并时间 2026-04-14 20:03

文档 重要性 2.00 洞察度 1.00

更新 Ascend NPU 卸载功能文档,明确参数支持状态和使用约束。

该 PR 为纯文档更新,无需精读代码。对于关注 NPU 平台卸载功能演进的开发者,可快速浏览以了解参数支持状态的变化;对于技术管理者,可作为 NPU 功能成熟度提升的佐证。

文档 重要性 1.70 洞察度 1.00

修复文档中工具调用解析器选项格式

该 PR 已合并,无需额外操作。推荐在以后的文档变更中注意表格内换行符后的空格一致性。

文档 重要性 2.00 洞察度 1.00

更新Ascend NPU贡献指南中的过时描述和文件引用。

该PR为简单的文档更新,无需精读。对于NPU贡献者或文档维护者,可关注文件命名规范从“ascend”到“npu”的通用化趋势,这可能反映项目对多NPU硬件支持的统一命名约定。

性能优化 重要性 6.70 洞察度 6.00

优化PCG Inductor路径下FP8模型的GPU内核开销,提升嵌入性能24%。

建议精读此PR,关注如何权衡自定义内核与Inductor融合的设计决策,以及通过本地配置检查避免全局副作用的实现方式。对于从事编译器优化或量化开发的工程师,此PR提供了实际性能调优案例。

缺陷修复 重要性 5.00 洞察度 4.00

修复DeepEP后端下共享专家融合与EPLB同时启用时的索引越界问题。

该PR值得精读,特别是对于从事MoE层优化和DeepEP后端开发的工程师。关注点:1. 共享专家融合与EPLB调度的冲突机制;2. 条件分支的设计权衡(可读性 vs 代码重复);3. 张量操作对性能的潜在影响。

缺陷修复 重要性 6.00 洞察度 6.00

修复PCG模式下注意力填充令牌计算问题,避免未定义行为和输出损坏。

该PR值得精读,特别是radix_attention.py和radix_linear_attention.py中的切片逻辑设计,展示了如何在保持原有batch对象身份的同时排除填充令牌。建议关注out_cache_loc的动态修改和恢复机制,以及讨论中关于字段命名和缓冲区初始化的技术权衡。

参与讨论