#22372 [DSA] Hopper FP8 FlashMLA KV padding
作者 mmangkad · 合并时间 2026-04-12 17:19
为 FlashMLA KV 内核添加 q-head padding,支持纯 TP 配置下的 FP8 注意力计算。
建议精读 `nsa_backend.py` 中的填充实现,关注 `_forward_flashmla_kv` 方法的设计决策;同时注意默认配置变更对部署的影响。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 mmangkad · 合并时间 2026-04-12 17:19
为 FlashMLA KV 内核添加 q-head padding,支持纯 TP 配置下的 FP8 注意力计算。
建议精读 `nsa_backend.py` 中的填充实现,关注 `_forward_flashmla_kv` 方法的设计决策;同时注意默认配置变更对部署的影响。
作者 klshuster · 合并时间 2026-04-12 17:17
新增--quantization unquant选项,允许用户显式禁用量化自动检测。
这个PR值得关注,因为它展示了如何处理用户显式意图与系统自动检测之间的冲突。设计上通过添加标志记录用户选择,而不是简单依赖None值,这种模式在处理类似配置冲突时值得借鉴。建议阅读python/sglang/srt/server_args.py中的相关修改,特别是_handle_model_specific_adjustments方法中三个自动检测路径的防护条件。
作者 edwingao28 · 合并时间 2026-04-12 17:08
修复 VLM 中 --mm-process-config 参数未传递给所有模型的问题,通过按模态分离配置避免冲突。
该 PR 值得精读,特别是对于处理多模态配置和 HuggingFace 处理器集成的设计决策。关注点包括:如何使用 `setdefault().update()` 优雅地合并配置,以及如何通过验证和测试确保健壮性。对于维护者,可以学习避免参数冲突的模式。
作者 hnyls2002 · 合并时间 2026-04-12 16:48
修复流式会话繁忙内存检查重复计数问题,避免虚假泄漏断言。
建议精读该PR,重点关注`SessionSlot`中`is_active`字段的设计决策,以及如何平衡内存检查准确性与重试幂等性。同时,留意提交历史中的迭代过程,理解内存管理复杂性和后续问题追踪。
作者 JustinTong0323 · 合并时间 2026-04-12 16:22
修复工具调用测试的随机失败问题,通过添加strict=True确保参数模式强制约束。
这是一个简单的测试修复,无需深入阅读。值得关注的是它揭示了工具调用协议中strict参数的重要性,以及小模型在非严格模式下可能产生不符合参数模式的输出。对于理解工具调用测试的设计和约束解码机制有一定参考价值。
作者 ispobock · 合并时间 2026-04-12 16:03
修复SWA模型输入长度限制过严问题,允许大于SWA池但小于全池的输入长度。
该PR值得精读,特别是对于处理SWA模型或调度系统的工程师。值得关注的设计决策包括:1. 将SWA预算计算从简单的`min()`限制重构为显式偏移跟踪;2. `_swa_budget_for_req`方法中考虑分块预填充和滑动窗口保留的逻辑;3. 保持向后兼容性的同时修复功能限制。
作者 hnyls2002 · 合并时间 2026-04-12 15:39
为混合SWA模型添加运行时繁忙内存检查支持,修复NotImplementedError。
该PR值得内存管理和调度器模块的工程师精读,特别是关注`_get_total_uncached_sizes`中双池未缓存令牌的计算逻辑,以及`_self_check_during_busy_swa`中双池守恒不变性的设计。对于使用SWA模型的团队,建议验证新检查在各自场景下的行为。
作者 wufann · 合并时间 2026-04-12 14:58
为GLM-5模型在AMD平台优化Aiter稀疏注意力性能,通过填充头数和移除硬编码参数。
建议AMD平台开发者或关注GLM-5性能优化的工程师精读此PR。重点关注头数填充的设计决策(need_pad_heads和head_repeat_factor),以及如何优雅地适配内核约束而不破坏原有逻辑。同时注意此PR暂未合并,需跟踪相关Aiter更新。
参与讨论