Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-13 21:37 同步状态：空闲下次计划：2026-06-13 22:37

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-03-20

#20819 Fix scale_step_k computation in the fp8_kernel

原始 PR · 作者 Muqi1029 · 合并时间 2026-03-20 18:09

缺陷修复重要性 6.00 洞察度 4.00

修复fp8_kernel中scale_step_k计算错误，确保缩放指针正确前进。

对于涉及fp8量化或内核开发的工程师，建议精读以理解共享参数管理的正确实现，尽管代码简单，但展示了在性能与正确性间的权衡决策。

bugfixperformance

#19552 [feat] Enhance Kimi-K2/K2.5 function call and reasoning detection

原始 PR · 作者 AlfredYyong · 合并时间 2026-03-20 03:57

功能重要性 6.00 洞察度 6.00

增强 Kimi-K2/K2.5 函数调用检测，修复推理块内工具调用标记泄漏并支持连字符函数名。

建议工程师精读此 PR，以学习推理解析与函数调用检测的设计权衡，特别是重用通用机制（PR #17714）的简化策略；关注 `kimik2_detector.py` 中的正则表达式更新和特殊令牌处理，以及测试文件中的场景覆盖，有助于理解边缘 case 防御。

featurebugfixtest

2026-03-19

#17784 Upgrade transformers==5.3.0

原始 PR · 作者 JustinTong0323 · 合并时间 2026-03-19 04:50

重构重要性 8.00 洞察度 7.00

升级 transformers 到 5.3.0，修复 v5 兼容性问题，涉及 95 个文件的大规模适配。

建议技术管理者和工程师精读此 PR，特别关注 rope 参数处理的统一方案（get_rope_config() 函数）和模型适配模式（如 Gemma3 嵌套结构处理）。对于类似大规模依赖升级，可以参考此次变更的协调方式和测试修复策略。

refactorbugfixtest

2026-03-17

#19913 [NPU] Support dequant_swiglu_quant & moe_init_routing_v2 & npu_moe_token_unpermute for W8A8 MoE decode

原始 PR · 作者 heziiop · 合并时间 2026-03-17 21:39

功能重要性 6.00 洞察度 5.00

为W8A8 MoE解码阶段引入新NPU操作符以提升性能。

该PR值得精读，特别是对于关注NPU硬件优化和MoE模型性能的工程师。关键设计决策包括只优化decode阶段以避免prefill回归，以及使用融合操作符减少计算开销，这些权衡值得学习。

npuperformancefeature

#20284 [Nemotron] Small reasoning parser fix

原始 PR · 作者 roikoren755 · 合并时间 2026-03-17 04:29

缺陷修复重要性 4.00 洞察度 4.00

修复Nemotron推理解析器在纯推理输出时内容为空的问题，添加force_nonempty_content选项。

该PR值得快速浏览，重点关注force_nonempty_content的设计决策：它通过参数化而非硬编码的方式解决空内容问题，保持了向后兼容性。对于处理模型输出解析的开发者，可以学习这种通过交换字段内容来增强健壮性的模式。同时，建议查看新增的单元测试，了解如何全面测试解析器的各种边界情况。

bugfixrun-ciconsistency

#19548 fix: support PP2+CP8+TP8 (PP with context parallelism)

原始 PR · 作者 whybeyoung · 合并时间 2026-03-17 00:51

缺陷修复重要性 6.00 洞察度 5.00

修复调度器以支持PP与CP并行，解决H20配置下PP2+CP8+TP8的通信问题。

建议技术管理者和工程师精读`scheduler_pp_mixin.py`中的通信逻辑修改，特别是CP广播的添加，以理解分布式数据同步机制。同时关注`server_args.py`中的配置检查变化，确保在启用PP与CP时正确设置`enable_nsa_prefill_context_parallel`等变量，并留意未解决的`attn_cp_size`讨论。

bugfixrun-cischeduling

2026-03-16

#20646 [Utils] Move network/socket utilities from `common.py` to `network.py`

原始 PR · 作者 hnyls2002 · 合并时间 2026-03-16 11:35

重构重要性 6.00 洞察度 5.00

将网络工具函数从common.py移至network.py，提升代码模块化。

建议精读此PR以理解代码组织的最佳实践，特别是关注不重新导出的设计决策，以及如何安全地重构跨多个文件的导入。

refactorrun-cimodel-gateway

2026-03-12

#19903 Enable Piecewise CUDA Graph for NemotronH Hybrid (Mamba+Attention) Models

原始 PR · 作者 vedantjh2 · 合并时间 2026-03-12 09:16

缺陷修复重要性 6.00 洞察度 7.00

修复 NemotronH 混合模型 PCG 禁用问题，实现高达 10.5% 的吞吐量提升。

建议技术管理者和工程师精读此 PR，重点关注 split op 的设计如何平衡 CUDA graph 捕获和动态形状处理，以及 `layer_id` 对齐策略在混合架构中的通用性。代码变更虽小，但涉及底层优化和兼容性权衡。

bugfixperformancerefactor

第 394 / 396 页 · 共 3166 条

上一页 1 … 392 393 394 395 396 下一页