Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 15:44 同步状态:空闲 下次计划:2026-06-07 16:44

PR 列表

更多筛选
2026-03-25
功能 重要性 5.00 洞察度 4.00

MoRI EP 自动从 MoE 权重 dtype 检测 dispatch quantization 类型,简化用户配置。

建议精读 `moriep.py` 中的 `set_quant_config` 和懒初始化设计,以理解如何实现自动检测和延迟创建 MoRI 操作,这对于学习量化路径选择机制和 AMD MoE 优化有价值。

#21253 [AMD] Add mha fp8-kv support

原始 PR · 作者 kkHuang-amd · 合并时间 2026-03-25 13:38

功能 重要性 5.00 洞察度 5.00

为 AMD 平台的多头注意力添加 FP8 KV 缓存支持,提升推理性能。

建议关注量化优化和注意力机制的开发者精读此 PR。值得关注的设计决策包括:在 forward_extend 中保持 q 精度为 bf16 或 fp16 以优化性能(如 commit 消息所述),以及如何传递缩放因子处理 fp8 缓存。此外,应注意 review 中讨论的未解决问题,如原生 decode kernel 支持。

性能优化 重要性 5.00 洞察度 4.00

修改KV缓存数据类型设置,临时绕过B200 GPU启用DP时的性能下降。

建议性能优化工程师精读此PR,了解workaround的设计权衡,同时关注后续根本修复(Issue #21011)以保持代码简洁。对于处理类似硬件性能问题的开发者,此变更提供了临时调整默认配置的范例。

缺陷修复 重要性 1.00 洞察度 0.00

修复 CI 取消工作流程标签错误,确保 bypass-maintenance 标签生效。

此 PR 变更简单,无需深入精读。对于 CI 维护者,值得关注标签命名的一致性,以避免类似错误;对于其他工程师,可作为小规模 bugfix 的参考。

基础设施 重要性 3.00 洞察度 3.00

添加 CI 取消工作流程的高优先级 PR 取消选项,优化资源管理。

由于变更较小且无争议,无需精读整个 PR;值得关注的点是 CI 工作流中参数传递和标签检查的实现模式,可作为类似优化的参考。

缺陷修复 重要性 4.00 洞察度 3.00

修复 disaggregation 测试中的 bootstrap 端口冲突,避免 CI 失败。

对于测试维护者和 CI 工程师,建议快速浏览以了解端口配置模式;对于其他开发者,变更简单,无需深度关注。

#21305 Increase flush cache timeout in hicache CI

原始 PR · 作者 ispobock · 合并时间 2026-03-25 10:01

测试 重要性 4.00 洞察度 5.00

修改缓存刷新重试函数为超时轮询机制,提升CI测试的稳定性。

对于关注CI稳定性的团队,本PR值得简要查看以了解测试工具的改进。设计上从重试次数到超时轮询的转变体现了对异步操作处理的优化,但需注意review中指出的超时精确性问题,可能需要在未来修正。

参与讨论