Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-04-17
基础设施 重要性 4.26 洞察度 3.00

在CI依赖安装脚本中新增Rust工具链安装步骤,确保源码构建时cargo/rustc可用。

该PR变更直接且必要,适合快速浏览以理解CI依赖管理策略。值得关注的设计决策是复用`install_protoc.sh`的模式,将工具链安装封装为可重用脚本,体现了基础设施代码的模块化思想。

功能 重要性 7.64 洞察度 6.00

为推测解码管道添加OpenTelemetry追踪,覆盖EAGLE和NGRAM工作器的draft、verify和accept阶段。

建议技术管理者和工程师精读此PR,特别是`req_time_stats.py`中新增的追踪方法设计和`set_time_batch`的使用模式,这些展示了如何将OpenTelemetry集成到高性能推理管道中,同时保持低开销。关注设计决策如`trace_only`参数和事件放置时机,对于构建可观测性功能有借鉴价值。

功能 重要性 7.81 洞察度 6.00

允许 PCG 与所有投机解码算法共存

**值得精读**。该 PR 展示了如何通过运行时安全检查而非全局禁用实现功能兼容,设计思路清晰。重点关注: - `can_run` 中两个守卫条件的语义(`ForwardMode.TARGET_VERIFY` 和 `capture_hidden_mode` 匹配)。 - Draft 模型跳过 PCG 初始化的逻辑及其对多模型架构的影响。 - 测试文件中如何编排多 GPU 环境和内存限制。 该 PR 的演变过程(从简单移除到逐步修复兼容问题)也提供了良好的工程实践参考。

#23028 [codex] Update diffusion skills

原始 PR · 作者 BBuf · 合并时间 2026-04-17 13:29

文档 重要性 5.77 洞察度 4.00

更新 diffusion benchmark/profile 技能,强制使用 native SGLang backend 并添加 --no-torch-compile 选项。

建议精读 `bench_diffusion_denoise.py` 的变更,特别是 `build_sglang_cmd` 和 `run_benchmark_once` 函数,以理解 native backend 验证机制;同时关注文档更新,确保正确使用 diffusion skills 进行 benchmark 和测试。

缺陷修复 重要性 7.01 洞察度 5.00

修复CI任务监控脚本中的队列时间、利用率和摘要指标计算错误。

对于负责CI基础设施或监控的工程师,值得精读以了解如何正确处理GitHub Actions API数据并优化监控脚本;重点关注使用runner_name作为状态区分器的设计决策和参数化时间窗口的可配置性改进。

#22842 [CPU] Add gemma4_rmsnorm_cpu kernel

原始 PR · 作者 blzheng · 合并时间 2026-04-17 13:03

功能 重要性 7.76 洞察度 5.00

新增Gemma 4 RMSNorm CPU内核,并扩展其他归一化内核支持3D输入,修复Xeon CI失败。

建议负责CPU内核开发或模型推理优化的工程师精读此PR,重点关注`sgl-kernel/csrc/cpu/norm.cpp`中的3D输入支持设计和`python/sglang/srt/layers/layernorm.py`中的条件调用决策,这些设计模式在优化CPU计算和平衡性能与健壮性时值得借鉴。

缺陷修复 重要性 6.66 洞察度 6.00

修复CPU内核中因果掩码逻辑错误,解决大序列输入时NaN问题。

该PR值得精读,重点关注因果掩码条件从`num_keys - n <= BLOCK_N`到`n + n_size - 1 > m`的设计变更,这揭示了块状注意力中处理未来键的通用模式。工程师应学习如何通过钳位last_col避免越界写入,并在测试中覆盖边界情况。

基础设施 重要性 9.00 洞察度 5.00

回退AMD GPU上的MXFP4量化模型支持,修复CI依赖安装失败。

该PR值得精读,以理解依赖版本不匹配如何导致功能回退的典型案例。关注点包括:1) petit.py中配置类的重构如何简化代码结构,2) petit_utils.py中的错误处理设计如何优雅降级,3) 配置文件的联动调整确保系统一致性。对于基础设施团队,可借鉴CI依赖管理的最佳实践。

参与讨论