Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-22

#25830 [NPU] Docs op performance optimize

原始 PR · 作者 McZyWu · 合并时间 2026-05-22 09:20

文档 重要性 4.31 洞察度 5.00

新增 NPU 算子性能优化文档

值得 NPU 开发者和性能调试人员精读,特别是 msProf 输出指标解读部分,可快速定位算子瓶颈。

功能 重要性 8.59 洞察度 5.00

默认启用 diffusion 服务预热,优化首次请求延迟

值得合并。该 PR 有效地解决了 diffusion 服务冷启动问题,设计上优先缓存默认负面提示,并提供了合理的 fallback。建议在后续迭代中增加对预热失败的回退机制和更详细的日志。

性能优化 重要性 7.90 洞察度 5.00

复用 Diffusion 动态 LoRA 缓存,减少 reactivation 开销

建议关注 _reactivate_cached_dynamic_lora_layers 的验证逻辑和 set_lora 的分流架构设计,理解快速路径的正确性边界。尤其适合有 LoRA 切换性能瓶颈的团队参考学习。

缺陷修复 重要性 6.08 洞察度 4.00

修复 HybridLinearKVPool 在 chunked prefix cache 中的类型断言错误

该 PR 值得快速合并,修复了一个生产环境可能遇到的崩溃问题,且改动极小(仅 4 行有效代码)。对于团队而言,学到了如何安全地放宽类型约束以支持包装类型。

提前 HiSparseCoordinator 初始化,删除 attention backend 的懒加载属性

建议合并。此 PR 清理了后端初始化中的一个历史遗留问题,符合‘构造时捕获’的设计原则。值得关注的是通过调整初始化顺序来消除懒加载属性的思路。

重构 重要性 9.13 洞察度 6.00

引入 ForwardContext 分离 ForwardBatch 职责,移除运行时引用

此 PR 是重要的架构解耦重构,值得所有涉及 attention 或 model runner 开发的工程师精读。关键设计决策包括: - 冻结数据类的选择(防止意外修改,鼓励 `dataclasses.replace`)。 - 注意力后端在 `__init__` 中缓存 pool 引用 vs. 实时通过 `get_forward_context()` 派生。 - `hisparse_coordinator` 通过后端 `@property` 延迟读取 `model_runner`,避免循环依赖。 - 多 runner 场景下 `ForwardContext` 的 save/restore 策略。 建议重点关注 `forward_context.py` 的设计和 `_forward_raw` 中的上下文发布模式。

#25922 [core] Unify output_tokens_buf in FutureMap

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-22 04:56

重构 重要性 6.88 洞察度 5.00

统一 FutureMap 中的 output_tokens_buf,简化 spec 中继缓冲区

建议审核并合并。该 PR 是 FutureMap 重构系列的一部分,虽包含多处核心路径变更,但改动集中且经过 CI 验证。值得关注的设计决策是统一缓冲区布局以简化未来扩展。

重构 重要性 6.28 洞察度 4.00

清理 FutureMap 命名并添加异步安全检查

建议快速合入。该 PR 是 #25879 的清理配套,没有功能变更但提升了代码质量和可维护性,值得所有 speculative 相关开发者了解其中的命名规范和防御性编程实践。

参与讨论