Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-18 19:19 同步状态:空闲 下次计划:2026-04-18 20:19

PR 列表

已合并 957 · 已分析 957
更多筛选
2026-03-20
功能 重要性 6.00 洞察度 6.00

增强 Kimi-K2/K2.5 函数调用检测,修复推理块内工具调用标记泄漏并支持连字符函数名。

建议工程师精读此 PR,以学习推理解析与函数调用检测的设计权衡,特别是重用通用机制(PR #17714)的简化策略;关注 `kimik2_detector.py` 中的正则表达式更新和特殊令牌处理,以及测试文件中的场景覆盖,有助于理解边缘 case 防御。

2026-03-19

#17784 Upgrade transformers==5.3.0

作者 JustinTong0323 · 合并时间 2026-03-19 04:50

重构 重要性 8.00 洞察度 7.00

升级 transformers 到 5.3.0,修复 v5 兼容性问题,涉及 95 个文件的大规模适配。

建议技术管理者和工程师精读此 PR,特别关注 rope 参数处理的统一方案(get_rope_config() 函数)和模型适配模式(如 Gemma3 嵌套结构处理)。对于类似大规模依赖升级,可以参考此次变更的协调方式和测试修复策略。

2026-03-17
功能 重要性 6.00 洞察度 5.00

为W8A8 MoE解码阶段引入新NPU操作符以提升性能。

该PR值得精读,特别是对于关注NPU硬件优化和MoE模型性能的工程师。关键设计决策包括只优化decode阶段以避免prefill回归,以及使用融合操作符减少计算开销,这些权衡值得学习。

#20284 [Nemotron] Small reasoning parser fix

作者 roikoren755 · 合并时间 2026-03-17 04:29

缺陷修复 重要性 4.00 洞察度 4.00

修复Nemotron推理解析器在纯推理输出时内容为空的问题,添加force_nonempty_content选项。

该PR值得快速浏览,重点关注force_nonempty_content的设计决策:它通过参数化而非硬编码的方式解决空内容问题,保持了向后兼容性。对于处理模型输出解析的开发者,可以学习这种通过交换字段内容来增强健壮性的模式。同时,建议查看新增的单元测试,了解如何全面测试解析器的各种边界情况。

缺陷修复 重要性 6.00 洞察度 5.00

修复调度器以支持PP与CP并行,解决H20配置下PP2+CP8+TP8的通信问题。

建议技术管理者和工程师精读`scheduler_pp_mixin.py`中的通信逻辑修改,特别是CP广播的添加,以理解分布式数据同步机制。同时关注`server_args.py`中的配置检查变化,确保在启用PP与CP时正确设置`enable_nsa_prefill_context_parallel`等变量,并留意未解决的`attn_cp_size`讨论。

2026-03-16
2026-03-12
缺陷修复 重要性 6.00 洞察度 7.00

修复 NemotronH 混合模型 PCG 禁用问题,实现高达 10.5% 的吞吐量提升。

建议技术管理者和工程师精读此 PR,重点关注 split op 的设计如何平衡 CUDA graph 捕获和动态形状处理,以及 `layer_id` 对齐策略在混合架构中的通用性。代码变更虽小,但涉及底层优化和兼容性权衡。

2026-03-11
功能 重要性 7.00 洞察度 6.00

集成FlashInfer MXFP8 GEMM、MoE和路由MoE,扩展量化支持与性能优化。

建议技术管理者和工程师精读此PR,重点关注FlashInfer MXFP8集成的设计决策,特别是权重对齐逻辑(如align_mxfp8_moe_weights_for_flashinfer_trtllm)和torch编译兼容性处理(自定义op包装)。这些设计对高性能推理后端优化有借鉴价值。

参与讨论