Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-22

#25830 [NPU] Docs op performance optimize

原始 PR · 作者 McZyWu · 合并时间 2026-05-22 09:20

文档重要性 4.31 洞察度 5.00

新增 NPU 算子性能优化文档

值得 NPU 开发者和性能调试人员精读，特别是 msProf 输出指标解读部分，可快速定位算子瓶颈。

documentationnpuperformance

#25988 [diffusion] feat: enable warmup for sglang serve by default

原始 PR · 作者 mickqian · 合并时间 2026-05-22 08:54

功能重要性 8.59 洞察度 5.00

默认启用 diffusion 服务预热，优化首次请求延迟

值得合并。该 PR 有效地解决了 diffusion 服务冷启动问题，设计上优先缓存默认负面提示，并提供了合理的 fallback。建议在后续迭代中增加对预热失败的回退机制和更详细的日志。

diffusionfeatureperformance

#25893 [diffusion] optimize: reuse cached dynamic lora weights

原始 PR · 作者 mickqian · 合并时间 2026-05-22 08:54

性能优化重要性 7.90 洞察度 5.00

复用 Diffusion 动态 LoRA 缓存，减少 reactivation 开销

建议关注 _reactivate_cached_dynamic_lora_layers 的验证逻辑和 set_lora 的分流架构设计，理解快速路径的正确性边界。尤其适合有 LoRA 切换性能瓶颈的团队参考学习。

diffusionloraperformance

#25753 feat: support HybridLinearKVPool in chunked prefix cache handling

原始 PR · 作者 imp2002 · 合并时间 2026-05-22 07:17

缺陷修复重要性 6.08 洞察度 4.00

修复 HybridLinearKVPool 在 chunked prefix cache 中的类型断言错误

该 PR 值得快速合并，修复了一个生产环境可能遇到的崩溃问题，且改动极小（仅 4 行有效代码）。对于团队而言，学到了如何安全地放宽类型约束以支持包装类型。

bugfixdeepseekkv-cache

#26012 refactor(attn): init hisparse_coordinator before attn_backend; replace lazy property with init-time capture

原始 PR · 作者 ch-wan · 合并时间 2026-05-22 07:03

重构重要性 6.67 洞察度 3.00

提前 HiSparseCoordinator 初始化，删除 attention backend 的懒加载属性

建议合并。此 PR 清理了后端初始化中的一个历史遗留问题，符合‘构造时捕获’的设计原则。值得关注的是通过调整初始化顺序来消除懒加载属性的思路。

refactordeepseekkv-cache

#25983 feat(model_runner): remove pool/backend refs from ForwardBatch via ForwardContext

原始 PR · 作者 ch-wan · 合并时间 2026-05-22 05:01

重构重要性 9.13 洞察度 6.00

引入 ForwardContext 分离 ForwardBatch 职责，移除运行时引用

此 PR 是重要的架构解耦重构，值得所有涉及 attention 或 model runner 开发的工程师精读。关键设计决策包括： - 冻结数据类的选择（防止意外修改，鼓励 `dataclasses.replace`）。 - 注意力后端在 `__init__` 中缓存 pool 引用 vs. 实时通过 `get_forward_context()` 派生。 - `hisparse_coordinator` 通过后端 `@property` 延迟读取 `model_runner`，避免循环依赖。 - 多 runner 场景下 `ForwardContext` 的 save/restore 策略。建议重点关注 `forward_context.py` 的设计和 `_forward_raw` 中的上下文发布模式。

refactorspeculative-decodingkv-cache

#25922 [core] Unify output_tokens_buf in FutureMap

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-22 04:56

重构重要性 6.88 洞察度 5.00

统一 FutureMap 中的 output_tokens_buf，简化 spec 中继缓冲区

建议审核并合并。该 PR 是 FutureMap 重构系列的一部分，虽包含多处核心路径变更，但改动集中且经过 CI 验证。值得关注的设计决策是统一缓冲区布局以简化未来扩展。

refactorspeculative-decodingscheduling

#25962 [Spec] Polish FutureMap after #25879: rename callback, async guard, cleanup

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-22 04:56

重构重要性 6.28 洞察度 4.00

清理 FutureMap 命名并添加异步安全检查

建议快速合入。该 PR 是 #25879 的清理配套，没有功能变更但提升了代码质量和可维护性，值得所有 speculative 相关开发者了解其中的命名规范和防御性编程实践。

speculative-decodingrefactorscheduling

第 84 / 357 页 · 共 2850 条

上一页 1 … 82 83 84 85 86 … 357 下一页