Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 10:18 同步状态:空闲 下次计划:2026-04-19 11:18

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-04-12

#22372 [DSA] Hopper FP8 FlashMLA KV padding

作者 mmangkad · 合并时间 2026-04-12 17:19

功能 重要性 5.00 洞察度 4.00

为 FlashMLA KV 内核添加 q-head padding,支持纯 TP 配置下的 FP8 注意力计算。

建议精读 `nsa_backend.py` 中的填充实现,关注 `_forward_flashmla_kv` 方法的设计决策;同时注意默认配置变更对部署的影响。

功能 重要性 5.00 洞察度 4.00

新增--quantization unquant选项,允许用户显式禁用量化自动检测。

这个PR值得关注,因为它展示了如何处理用户显式意图与系统自动检测之间的冲突。设计上通过添加标志记录用户选择,而不是简单依赖None值,这种模式在处理类似配置冲突时值得借鉴。建议阅读python/sglang/srt/server_args.py中的相关修改,特别是_handle_model_specific_adjustments方法中三个自动检测路径的防护条件。

缺陷修复 重要性 6.00 洞察度 6.00

修复 VLM 中 --mm-process-config 参数未传递给所有模型的问题,通过按模态分离配置避免冲突。

该 PR 值得精读,特别是对于处理多模态配置和 HuggingFace 处理器集成的设计决策。关注点包括:如何使用 `setdefault().update()` 优雅地合并配置,以及如何通过验证和测试确保健壮性。对于维护者,可以学习避免参数冲突的模式。

缺陷修复 重要性 5.00 洞察度 5.00

修复流式会话繁忙内存检查重复计数问题,避免虚假泄漏断言。

建议精读该PR,重点关注`SessionSlot`中`is_active`字段的设计决策,以及如何平衡内存检查准确性与重试幂等性。同时,留意提交历史中的迭代过程,理解内存管理复杂性和后续问题追踪。

缺陷修复 重要性 3.00 洞察度 4.00

修复工具调用测试的随机失败问题,通过添加strict=True确保参数模式强制约束。

这是一个简单的测试修复,无需深入阅读。值得关注的是它揭示了工具调用协议中strict参数的重要性,以及小模型在非严格模式下可能产生不符合参数模式的输出。对于理解工具调用测试的设计和约束解码机制有一定参考价值。

#22597 Fix swa input length limitation

作者 ispobock · 合并时间 2026-04-12 16:03

缺陷修复 重要性 5.00 洞察度 6.00

修复SWA模型输入长度限制过严问题,允许大于SWA池但小于全池的输入长度。

该PR值得精读,特别是对于处理SWA模型或调度系统的工程师。值得关注的设计决策包括:1. 将SWA预算计算从简单的`min()`限制重构为显式偏移跟踪;2. `_swa_budget_for_req`方法中考虑分块预填充和滑动窗口保留的逻辑;3. 保持向后兼容性的同时修复功能限制。

#21499 Add SWA support for runtime busy memory check

作者 hnyls2002 · 合并时间 2026-04-12 15:39

功能 重要性 5.00 洞察度 4.00

为混合SWA模型添加运行时繁忙内存检查支持,修复NotImplementedError。

该PR值得内存管理和调度器模块的工程师精读,特别是关注`_get_total_uncached_sizes`中双池未缓存令牌的计算逻辑,以及`_self_check_during_busy_swa`中双池守恒不变性的设计。对于使用SWA模型的团队,建议验证新检查在各自场景下的行为。

#21166 [Not-Merge][AMD] GLM-5 performance optimization

作者 wufann · 合并时间 2026-04-12 14:58

性能优化 重要性 6.00 洞察度 5.00

为GLM-5模型在AMD平台优化Aiter稀疏注意力性能,通过填充头数和移除硬编码参数。

建议AMD平台开发者或关注GLM-5性能优化的工程师精读此PR。重点关注头数填充的设计决策(need_pad_heads和head_repeat_factor),以及如何优雅地适配内核约束而不破坏原有逻辑。同时注意此PR暂未合并,需跟踪相关Aiter更新。

参与讨论