修复fp8_kernel中scale_step_k计算错误,确保缩放指针正确前进。
对于涉及fp8量化或内核开发的工程师,建议精读以理解共享参数管理的正确实现,尽管代码简单,但展示了在性能与正确性间的权衡决策。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复fp8_kernel中scale_step_k计算错误,确保缩放指针正确前进。
对于涉及fp8量化或内核开发的工程师,建议精读以理解共享参数管理的正确实现,尽管代码简单,但展示了在性能与正确性间的权衡决策。
原始 PR · 作者 AlfredYyong · 合并时间 2026-03-20 03:57
增强 Kimi-K2/K2.5 函数调用检测,修复推理块内工具调用标记泄漏并支持连字符函数名。
建议工程师精读此 PR,以学习推理解析与函数调用检测的设计权衡,特别是重用通用机制(PR #17714)的简化策略;关注 `kimik2_detector.py` 中的正则表达式更新和特殊令牌处理,以及测试文件中的场景覆盖,有助于理解边缘 case 防御。
原始 PR · 作者 JustinTong0323 · 合并时间 2026-03-19 04:50
升级 transformers 到 5.3.0,修复 v5 兼容性问题,涉及 95 个文件的大规模适配。
建议技术管理者和工程师精读此 PR,特别关注 rope 参数处理的统一方案(get_rope_config() 函数)和模型适配模式(如 Gemma3 嵌套结构处理)。对于类似大规模依赖升级,可以参考此次变更的协调方式和测试修复策略。
为W8A8 MoE解码阶段引入新NPU操作符以提升性能。
该PR值得精读,特别是对于关注NPU硬件优化和MoE模型性能的工程师。关键设计决策包括只优化decode阶段以避免prefill回归,以及使用融合操作符减少计算开销,这些权衡值得学习。
原始 PR · 作者 roikoren755 · 合并时间 2026-03-17 04:29
修复Nemotron推理解析器在纯推理输出时内容为空的问题,添加force_nonempty_content选项。
该PR值得快速浏览,重点关注force_nonempty_content的设计决策:它通过参数化而非硬编码的方式解决空内容问题,保持了向后兼容性。对于处理模型输出解析的开发者,可以学习这种通过交换字段内容来增强健壮性的模式。同时,建议查看新增的单元测试,了解如何全面测试解析器的各种边界情况。
原始 PR · 作者 whybeyoung · 合并时间 2026-03-17 00:51
修复调度器以支持PP与CP并行,解决H20配置下PP2+CP8+TP8的通信问题。
建议技术管理者和工程师精读`scheduler_pp_mixin.py`中的通信逻辑修改,特别是CP广播的添加,以理解分布式数据同步机制。同时关注`server_args.py`中的配置检查变化,确保在启用PP与CP时正确设置`enable_nsa_prefill_context_parallel`等变量,并留意未解决的`attn_cp_size`讨论。
将网络工具函数从common.py移至network.py,提升代码模块化。
建议精读此PR以理解代码组织的最佳实践,特别是关注不重新导出的设计决策,以及如何安全地重构跨多个文件的导入。
修复 NemotronH 混合模型 PCG 禁用问题,实现高达 10.5% 的吞吐量提升。
建议技术管理者和工程师精读此 PR,重点关注 split op 的设计如何平衡 CUDA graph 捕获和动态形状处理,以及 `layer_id` 对齐策略在混合架构中的通用性。代码变更虽小,但涉及底层优化和兼容性权衡。
参与讨论