Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-07

#23736 [Diffusion] Refactor CFG Parallelism Framework to Support Multi-branch CFG for LTX2 Models

原始 PR · 作者 ykcai-daniel · 合并时间 2026-05-07 22:56

重构重要性 9.18 洞察度 7.00

重构 CFG 并行框架，支持 LTX2 多分支无分类器引导

建议深度学习工程师精读本 PR，特别是 `cfg_policy.py` 和 `cfg_parallel_utils.py` 中的策略模式与 dispatch-allgather 架构，具有设计参考价值。在使用 LTX2.3 两阶段加速时，建议 `--cfg-parallel-size` 保持默认 2，避免大于分支数的配置触发已知 bug。生产环境应补充并行度 > 2 的测试覆盖。

diffusionrefactorperformance

#21885 [LoRA] Torch Native enhancement: embedding and graph optimization

原始 PR · 作者 vlserov · 合并时间 2026-05-07 22:28

缺陷修复重要性 8.46 洞察度 6.00

LoRA torch native后端支持embedding并修复CUDA图兼容性

值得精读，尤其是 `__init__.py` 中基于 `use_cuda_graph` 的调度设计，以及 `graph_lora_ops.py` 中为图兼容而采用的 masking 循环模式。这些是 LoRA 后端与图优化结合的关键技巧，对类似需求有借鉴意义。

lorabugfixperformance

#23967 Nixl async transfer

原始 PR · 作者 ovidiusm · 合并时间 2026-05-07 22:05

性能优化重要性 8.78 洞察度 7.00

Nixl 异步多线程传输提升 4x 性能

值得精读。设计上通过队列解耦传输与调度，并利用多线程实现并行传输，是典型的异步化改造案例。异常处理方式可借鉴。仅修改一个文件但在性能上收获明显，说明重构核心路径时保持接口向后兼容的重要性。

performancerefactorscheduling

#23346 [Bug Fix] Preserve decode state across retract-resume of GLM-5.1

原始 PR · 作者 zRzRzRzRzRzRzR · 合并时间 2026-05-07 21:37

缺陷修复重要性 6.93 洞察度 5.00

修复 GLM-5.1 PD retract-resume 状态别名 bug

该 PR 是一次关键的 bugfix，涉及分布式推理中状态一致性的核心问题，值得相关开发人员精读，尤其是理解状态别名和 CPU offloading 的设计权衡。推荐的关注点：clone() 对性能的影响、get_cpu_copy 与基类的一致性设计。

bugfixkv-cacheconsistency

#24601 [PD] Centralize per-room cleanup in common backend

原始 PR · 作者 ShangmingCai · 合并时间 2026-05-07 18:47

重构重要性 6.89 洞察度 6.00

集中化 PD 每房间清理逻辑到公共基类

本 PR 是高质量的代码整洁重构，消除了重复代码和隐式副作用，降低了维护成本和竞态风险。建议团队成员精读 `common/conn.py` 中新增的 `clear()` 实现，理解如何安全地在基类中统一清理各后端状态。同时建议采纳 gemini-code-assist 的 review 建议，修复 Nixl 后端的潜在内存泄漏问题，并补充 `addr_to_rooms_tracker` 的清理。

refactorbugfix

#24005 [AMD] Enable dual-stream MoE on ROCm

原始 PR · 作者 inkcherry · 合并时间 2026-05-07 17:27

功能重要性 6.24 洞察度 5.00

通过环境变量在 ROCm 上启用双流 MoE 重叠

值得阅读以了解双流 MoE 重叠在 ROCm 上的启用方式及硬件队列限制。代码修改较小但配置知识丰富，建议部署 AMD GPU 的团队关注。

amddeepseekperformance

#24566 [Spec][trtllm] use decode kernel for draft extend

原始 PR · 作者 hanming-lu · 合并时间 2026-05-07 17:25

性能优化重要性 5.36 洞察度 4.00

TRTLLM draft extend 使用 decode kernel

值得合并。改动量小且逻辑直观，只需确认 `is_draft_extend_v2` 枚举定义正确且与调度器行为一致。建议后续添加针对该分支的回归测试。

performancespeculative-decodinginfra

#24598 Let bypass-fastfail label skip stage-to-stage wait

原始 PR · 作者 hnyls2002 · 合并时间 2026-05-07 17:20

基础设施重要性 4.08 洞察度 3.00

PR 携带 bypass-fastfail 标签则跳过阶段等待

本 PR 是 CI 基础设施的一次小改进，值得关注其设计思路，但存在 review 中提出的两个潜在问题，后续可考虑改进。

cirun-cibugfix

第 163 / 357 页 · 共 2850 条

上一页 1 … 161 162 163 164 165 … 357 下一页