Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 02:55 同步状态:空闲 下次计划:2026-04-19 03:55

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-03-25
功能 重要性 5.00 洞察度 4.00

MoRI EP 自动从 MoE 权重 dtype 检测 dispatch quantization 类型,简化用户配置。

建议精读 `moriep.py` 中的 `set_quant_config` 和懒初始化设计,以理解如何实现自动检测和延迟创建 MoRI 操作,这对于学习量化路径选择机制和 AMD MoE 优化有价值。

#21253 [AMD] Add mha fp8-kv support

作者 kkHuang-amd · 合并时间 2026-03-25 13:38

功能 重要性 5.00 洞察度 5.00

为 AMD 平台的多头注意力添加 FP8 KV 缓存支持,提升推理性能。

建议关注量化优化和注意力机制的开发者精读此 PR。值得关注的设计决策包括:在 forward_extend 中保持 q 精度为 bf16 或 fp16 以优化性能(如 commit 消息所述),以及如何传递缩放因子处理 fp8 缓存。此外,应注意 review 中讨论的未解决问题,如原生 decode kernel 支持。

#21337 Workaround of DSA performance drop on B200 + DP

作者 Fridge003 · 合并时间 2026-03-25 13:21

性能优化 重要性 5.00 洞察度 4.00

修改KV缓存数据类型设置,临时绕过B200 GPU启用DP时的性能下降。

建议性能优化工程师精读此PR,了解workaround的设计权衡,同时关注后续根本修复(Issue #21011)以保持代码简洁。对于处理类似硬件性能问题的开发者,此变更提供了临时调整默认配置的范例。

#21305 Increase flush cache timeout in hicache CI

作者 ispobock · 合并时间 2026-03-25 10:01

测试 重要性 4.00 洞察度 5.00

修改缓存刷新重试函数为超时轮询机制,提升CI测试的稳定性。

对于关注CI稳定性的团队,本PR值得简要查看以了解测试工具的改进。设计上从重试次数到超时轮询的转变体现了对异步操作处理的优化,但需注意review中指出的超时精确性问题,可能需要在未来修正。

参与讨论