Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 03:57 同步状态:空闲 下次计划:2026-04-19 04:57

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-04-14

#22795 [NPU] Offloading docs update

作者 Hide-on-bushsh · 合并时间 2026-04-14 20:03

文档 重要性 2.00 洞察度 1.00

更新 Ascend NPU 卸载功能文档,明确参数支持状态和使用约束。

该 PR 为纯文档更新,无需精读代码。对于关注 NPU 平台卸载功能演进的开发者,可快速浏览以了解参数支持状态的变化;对于技术管理者,可作为 NPU 功能成熟度提升的佐证。

#22793 [Docs] Fix formatting of tool-call-parser options

作者 xdtbynd · 合并时间 2026-04-14 19:21

文档 重要性 1.00 洞察度 1.00

修复Ascend NPU文档中工具调用解析器选项的格式不一致问题。

该PR无需精读,仅是一个简单的文档格式修正。对于技术管理者,可完全忽略;对于工程师,除非负责文档维护,否则无需关注。唯一值得注意的点是review中提出的进一步格式优化建议未被采纳,但这不影响核心内容。

文档 重要性 2.00 洞察度 1.00

更新Ascend NPU贡献指南中的过时描述和文件引用。

该PR为简单的文档更新,无需精读。对于NPU贡献者或文档维护者,可关注文件命名规范从“ascend”到“npu”的通用化趋势,这可能反映项目对多NPU硬件支持的统一命名约定。

性能优化 重要性 6.70 洞察度 6.00

优化PCG Inductor路径下FP8模型的GPU内核开销,提升嵌入性能24%。

建议精读此PR,关注如何权衡自定义内核与Inductor融合的设计决策,以及通过本地配置检查避免全局副作用的实现方式。对于从事编译器优化或量化开发的工程师,此PR提供了实际性能调优案例。

缺陷修复 重要性 5.00 洞察度 4.00

修复DeepEP后端下共享专家融合与EPLB同时启用时的索引越界问题。

该PR值得精读,特别是对于从事MoE层优化和DeepEP后端开发的工程师。关注点:1. 共享专家融合与EPLB调度的冲突机制;2. 条件分支的设计权衡(可读性 vs 代码重复);3. 张量操作对性能的潜在影响。

缺陷修复 重要性 6.00 洞察度 6.00

修复PCG模式下注意力填充令牌计算问题,避免未定义行为和输出损坏。

该PR值得精读,特别是radix_attention.py和radix_linear_attention.py中的切片逻辑设计,展示了如何在保持原有batch对象身份的同时排除填充令牌。建议关注out_cache_loc的动态修改和恢复机制,以及讨论中关于字段命名和缓冲区初始化的技术权衡。

测试 重要性 6.00 洞察度 4.00

为AMD平台添加MiniMax-M2.7准确性及性能夜间CI测试,替换M2.5并修复导入bug。

建议工程师精读CI工作流变更逻辑,了解如何替换模型测试作业;关注minimax_m2.py的导入修复,作为关键bugfix的范例;测试文件可作为添加新模型测试的模板,适合学习SGLang的测试框架结构。

缺陷修复 重要性 5.00 洞察度 4.00

修复fp8 aiter预填充内核输出数据类型不匹配导致的模型输出损坏问题。

该PR值得快速浏览,了解fp8 kv-cache在AMD平台上的数据类型处理细节。关注点:1) 类型转换的触发条件(`if o.dtype != self.input_dtype`)是否足够健壮。2) 考虑HaiShaw关于“inbound”类型检查的建议是否需要在其他位置实施。

参与讨论