Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-18 18:16 同步状态:空闲 下次计划:2026-04-18 19:16

PR 列表

已合并 957 · 已分析 957
更多筛选
2026-04-17
缺陷修复 重要性 5.28 洞察度 5.00

修复流水线并行模式下调度器因条件判断错误导致的预填充请求挂起问题。

该 PR 值得精读,尤其是 PR body 中详细的根因分析和计算示例,展示了如何定位和修复调度器中的条件竞争问题。关注点在于理解流水线并行下分块请求的调度策略,以及为何必须允许其在槽位不足时继续执行。

功能 重要性 4.92 洞察度 5.00

新增环境变量 SGLANG_MORI_MOE_MAX_INPUT_TOKENS,在 MoE 计算前截断调度缓冲区以减少填充开销。

该 PR 值得关注其设计权衡:通过环境变量控制性能优化,但牺牲了部分安全性。建议精读 `run_moe_core` 中的截断逻辑,理解其与 `mori_op.combine` 的交互,并注意 review 中提到的潜在改进点。

#23041 [Docs] [npu] change the feature support status

作者 xdtbynd · 合并时间 2026-04-17 14:34

文档 重要性 1.70 洞察度 1.00

更新 Ascend NPU 平台文档,修正解聚解码 KV 缓存卸载功能的支持状态。

此 PR 为简单的文档更新,无需深入阅读代码。对于关注 Ascend NPU 平台功能支持状态的开发者,可快速浏览以了解 `--disaggregation-decode-enable-offload-kvcache` 参数的最新支持情况。无需关注设计决策或技术实现。

基础设施 重要性 4.26 洞察度 3.00

在CI依赖安装脚本中新增Rust工具链安装步骤,确保源码构建时cargo/rustc可用。

该PR变更直接且必要,适合快速浏览以理解CI依赖管理策略。值得关注的设计决策是复用`install_protoc.sh`的模式,将工具链安装封装为可重用脚本,体现了基础设施代码的模块化思想。

功能 重要性 7.64 洞察度 6.00

为推测解码管道添加OpenTelemetry追踪,覆盖EAGLE和NGRAM工作器的draft、verify和accept阶段。

建议技术管理者和工程师精读此PR,特别是`req_time_stats.py`中新增的追踪方法设计和`set_time_batch`的使用模式,这些展示了如何将OpenTelemetry集成到高性能推理管道中,同时保持低开销。关注设计决策如`trace_only`参数和事件放置时机,对于构建可观测性功能有借鉴价值。

功能 重要性 7.80 洞察度 6.00

允许分段CUDA图与所有推测解码算法共存,提升推理性能。

建议工程师精读`piecewise_cuda_graph_runner.py`中的`can_run`方法,理解PCG与推测解码的路径隔离机制;此PR展示了如何通过验证和渐进式修复来移除保守限制,值得学习其设计权衡和测试策略。

#23028 [codex] Update diffusion skills

作者 BBuf · 合并时间 2026-04-17 13:29

文档 重要性 5.77 洞察度 4.00

更新 diffusion benchmark/profile 技能,强制使用 native SGLang backend 并添加 --no-torch-compile 选项。

建议精读 `bench_diffusion_denoise.py` 的变更,特别是 `build_sglang_cmd` 和 `run_benchmark_once` 函数,以理解 native backend 验证机制;同时关注文档更新,确保正确使用 diffusion skills 进行 benchmark 和测试。

缺陷修复 重要性 7.01 洞察度 5.00

修复CI任务监控脚本中的队列时间、利用率和摘要指标计算错误。

对于负责CI基础设施或监控的工程师,值得精读以了解如何正确处理GitHub Actions API数据并优化监控脚本;重点关注使用runner_name作为状态区分器的设计决策和参数化时间窗口的可配置性改进。

参与讨论