Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-05-07
重构 重要性 9.18 洞察度 7.00

重构 CFG 并行框架,支持 LTX2 多分支无分类器引导

建议深度学习工程师精读本 PR,特别是 `cfg_policy.py` 和 `cfg_parallel_utils.py` 中的策略模式与 dispatch-allgather 架构,具有设计参考价值。在使用 LTX2.3 两阶段加速时,建议 `--cfg-parallel-size` 保持默认 2,避免大于分支数的配置触发已知 bug。生产环境应补充并行度 > 2 的测试覆盖。

缺陷修复 重要性 8.46 洞察度 6.00

LoRA torch native后端支持embedding并修复CUDA图兼容性

值得精读,尤其是 `__init__.py` 中基于 `use_cuda_graph` 的调度设计,以及 `graph_lora_ops.py` 中为图兼容而采用的 masking 循环模式。这些是 LoRA 后端与图优化结合的关键技巧,对类似需求有借鉴意义。

#23967 Nixl async transfer

原始 PR · 作者 ovidiusm · 合并时间 2026-05-07 22:05

性能优化 重要性 8.78 洞察度 7.00

Nixl 异步多线程传输提升 4x 性能

值得精读。设计上通过队列解耦传输与调度,并利用多线程实现并行传输,是典型的异步化改造案例。异常处理方式可借鉴。仅修改一个文件但在性能上收获明显,说明重构核心路径时保持接口向后兼容的重要性。

缺陷修复 重要性 6.93 洞察度 5.00

修复 GLM-5.1 PD retract-resume 状态别名 bug

该 PR 是一次关键的 bugfix,涉及分布式推理中状态一致性的核心问题,值得相关开发人员精读,尤其是理解状态别名和 CPU offloading 的设计权衡。推荐的关注点:clone() 对性能的影响、get_cpu_copy 与基类的一致性设计。

重构 重要性 6.89 洞察度 6.00

集中化 PD 每房间清理逻辑到公共基类

本 PR 是高质量的代码整洁重构,消除了重复代码和隐式副作用,降低了维护成本和竞态风险。建议团队成员精读 `common/conn.py` 中新增的 `clear()` 实现,理解如何安全地在基类中统一清理各后端状态。同时建议采纳 gemini-code-assist 的 review 建议,修复 Nixl 后端的潜在内存泄漏问题,并补充 `addr_to_rooms_tracker` 的清理。

#24005 [AMD] Enable dual-stream MoE on ROCm

原始 PR · 作者 inkcherry · 合并时间 2026-05-07 17:27

功能 重要性 6.24 洞察度 5.00

通过环境变量在 ROCm 上启用双流 MoE 重叠

值得阅读以了解双流 MoE 重叠在 ROCm 上的启用方式及硬件队列限制。代码修改较小但配置知识丰富,建议部署 AMD GPU 的团队关注。

性能优化 重要性 5.36 洞察度 4.00

TRTLLM draft extend 使用 decode kernel

值得合并。改动量小且逻辑直观,只需确认 `is_draft_extend_v2` 枚举定义正确且与调度器行为一致。建议后续添加针对该分支的回归测试。

基础设施 重要性 4.08 洞察度 3.00

PR 携带 bypass-fastfail 标签则跳过阶段等待

本 PR 是 CI 基础设施的一次小改进,值得关注其设计思路,但存在 review 中提出的两个潜在问题,后续可考虑改进。

参与讨论