← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-04-19 10:18 同步状态：空闲下次计划：2026-04-19 11:18

PR 列表

已合并 960 · 已分析 960

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-12

#22372 [DSA] Hopper FP8 FlashMLA KV padding

作者 mmangkad · 合并时间 2026-04-12 17:19

功能重要性 5.00 洞察度 4.00

为 FlashMLA KV 内核添加 q-head padding，支持纯 TP 配置下的 FP8 注意力计算。

建议精读 `nsa_backend.py` 中的填充实现，关注 `_forward_flashmla_kv` 方法的设计决策；同时注意默认配置变更对部署的影响。

查看完整分析 GitHub 原始 PR featuredeepseeksgl-kernel

#21863 [server] Add --quantization unquant to explicitly opt out of quantization

作者 klshuster · 合并时间 2026-04-12 17:17

功能重要性 5.00 洞察度 4.00

新增--quantization unquant选项，允许用户显式禁用量化自动检测。

这个PR值得关注，因为它展示了如何处理用户显式意图与系统自动检测之间的冲突。设计上通过添加标志记录用户选择，而不是简单依赖None值，这种模式在处理类似配置冲突时值得借鉴。建议阅读python/sglang/srt/server_args.py中的相关修改，特别是_handle_model_specific_adjustments方法中三个自动检测路径的防护条件。

查看完整分析 GitHub 原始 PR featurerun-ciquant

#18467 VLM: support passing --mm-process-config for all models

作者 edwingao28 · 合并时间 2026-04-12 17:08

缺陷修复重要性 6.00 洞察度 6.00

修复 VLM 中 --mm-process-config 参数未传递给所有模型的问题，通过按模态分离配置避免冲突。

该 PR 值得精读，特别是对于处理多模态配置和 HuggingFace 处理器集成的设计决策。关注点包括：如何使用 `setdefault().update()` 优雅地合并配置，以及如何通过验证和测试确保健壮性。对于维护者，可以学习避免参数冲突的模式。

查看完整分析 GitHub 原始 PR bugfixmultimodaldocumentation

#22213 Fix streaming session busy check double-counting; add compat CI tests

作者 hnyls2002 · 合并时间 2026-04-12 16:48

缺陷修复重要性 5.00 洞察度 5.00

修复流式会话繁忙内存检查重复计数问题，避免虚假泄漏断言。

建议精读该PR，重点关注`SessionSlot`中`is_active`字段的设计决策，以及如何平衡内存检查准确性与重试幂等性。同时，留意提交历史中的迭代过程，理解内存管理复杂性和后续问题追踪。

查看完整分析 GitHub 原始 PR bugfixrun-citest

#22624 [Test] Fix flaky test_function_call_specific by adding strict=True

作者 JustinTong0323 · 合并时间 2026-04-12 16:22

缺陷修复重要性 3.00 洞察度 4.00

修复工具调用测试的随机失败问题，通过添加strict=True确保参数模式强制约束。

这是一个简单的测试修复，无需深入阅读。值得关注的是它揭示了工具调用协议中strict参数的重要性，以及小模型在非严格模式下可能产生不符合参数模式的输出。对于理解工具调用测试的设计和约束解码机制有一定参考价值。

查看完整分析 GitHub 原始 PR bugfixtestrun-ci

#22597 Fix swa input length limitation

作者 ispobock · 合并时间 2026-04-12 16:03

缺陷修复重要性 5.00 洞察度 6.00

修复SWA模型输入长度限制过严问题，允许大于SWA池但小于全池的输入长度。

该PR值得精读，特别是对于处理SWA模型或调度系统的工程师。值得关注的设计决策包括：1. 将SWA预算计算从简单的`min()`限制重构为显式偏移跟踪；2. `_swa_budget_for_req`方法中考虑分块预填充和滑动窗口保留的逻辑；3. 保持向后兼容性的同时修复功能限制。

查看完整分析 GitHub 原始 PR bugfixrun-cischeduling

#21499 Add SWA support for runtime busy memory check

作者 hnyls2002 · 合并时间 2026-04-12 15:39

功能重要性 5.00 洞察度 4.00

为混合SWA模型添加运行时繁忙内存检查支持，修复NotImplementedError。

该PR值得内存管理和调度器模块的工程师精读，特别是关注`_get_total_uncached_sizes`中双池未缓存令牌的计算逻辑，以及`_self_check_during_busy_swa`中双池守恒不变性的设计。对于使用SWA模型的团队，建议验证新检查在各自场景下的行为。

查看完整分析 GitHub 原始 PR featurerun-ciobservability

#21166 [Not-Merge][AMD] GLM-5 performance optimization

作者 wufann · 合并时间 2026-04-12 14:58

性能优化重要性 6.00 洞察度 5.00

为GLM-5模型在AMD平台优化Aiter稀疏注意力性能，通过填充头数和移除硬编码参数。

建议AMD平台开发者或关注GLM-5性能优化的工程师精读此PR。重点关注头数填充的设计决策（need_pad_heads和head_repeat_factor），以及如何优雅地适配内核约束而不破坏原有逻辑。同时注意此PR暂未合并，需跟踪相关Aiter更新。

查看完整分析 GitHub 原始 PR performanceamdrun-ci

第 27 / 120 页 · 共 960 条

上一页 1 … 25 26 27 28 29 … 120 下一页

支持 Prhub ♥

sgl-project/sglang

PR 列表

#22372 [DSA] Hopper FP8 FlashMLA KV padding

#21863 [server] Add --quantization unquant to explicitly opt out of quantization

#18467 VLM: support passing --mm-process-config for all models

#22213 Fix streaming session busy check double-counting; add compat CI tests

#22624 [Test] Fix flaky test_function_call_specific by adding strict=True

#22597 Fix swa input length limitation

#21499 Add SWA support for runtime busy memory check

#21166 [Not-Merge][AMD] GLM-5 performance optimization

参与讨论