在CI依赖安装脚本中新增Rust工具链安装步骤,确保源码构建时cargo/rustc可用。
该PR变更直接且必要,适合快速浏览以理解CI依赖管理策略。值得关注的设计决策是复用`install_protoc.sh`的模式,将工具链安装封装为可重用脚本,体现了基础设施代码的模块化思想。
SGLang is a high-performance serving framework for large language models and multimodal models.
在CI依赖安装脚本中新增Rust工具链安装步骤,确保源码构建时cargo/rustc可用。
该PR变更直接且必要,适合快速浏览以理解CI依赖管理策略。值得关注的设计决策是复用`install_protoc.sh`的模式,将工具链安装封装为可重用脚本,体现了基础设施代码的模块化思想。
原始 PR · 作者 RichardoMrMu · 合并时间 2026-04-17 14:01
为推测解码管道添加OpenTelemetry追踪,覆盖EAGLE和NGRAM工作器的draft、verify和accept阶段。
建议技术管理者和工程师精读此PR,特别是`req_time_stats.py`中新增的追踪方法设计和`set_time_batch`的使用模式,这些展示了如何将OpenTelemetry集成到高性能推理管道中,同时保持低开销。关注设计决策如`trace_only`参数和事件放置时机,对于构建可观测性功能有借鉴价值。
允许 PCG 与所有投机解码算法共存
**值得精读**。该 PR 展示了如何通过运行时安全检查而非全局禁用实现功能兼容,设计思路清晰。重点关注: - `can_run` 中两个守卫条件的语义(`ForwardMode.TARGET_VERIFY` 和 `capture_hidden_mode` 匹配)。 - Draft 模型跳过 PCG 初始化的逻辑及其对多模型架构的影响。 - 测试文件中如何编排多 GPU 环境和内存限制。 该 PR 的演变过程(从简单移除到逐步修复兼容问题)也提供了良好的工程实践参考。
更新 diffusion benchmark/profile 技能,强制使用 native SGLang backend 并添加 --no-torch-compile 选项。
建议精读 `bench_diffusion_denoise.py` 的变更,特别是 `build_sglang_cmd` 和 `run_benchmark_once` 函数,以理解 native backend 验证机制;同时关注文档更新,确保正确使用 diffusion skills 进行 benchmark 和测试。
修复CI任务监控脚本中的队列时间、利用率和摘要指标计算错误。
对于负责CI基础设施或监控的工程师,值得精读以了解如何正确处理GitHub Actions API数据并优化监控脚本;重点关注使用runner_name作为状态区分器的设计决策和参数化时间窗口的可配置性改进。
新增Gemma 4 RMSNorm CPU内核,并扩展其他归一化内核支持3D输入,修复Xeon CI失败。
建议负责CPU内核开发或模型推理优化的工程师精读此PR,重点关注`sgl-kernel/csrc/cpu/norm.cpp`中的3D输入支持设计和`python/sglang/srt/layers/layernorm.py`中的条件调用决策,这些设计模式在优化CPU计算和平衡性能与健壮性时值得借鉴。
原始 PR · 作者 chunyuan-w · 合并时间 2026-04-17 13:01
修复CPU内核中因果掩码逻辑错误,解决大序列输入时NaN问题。
该PR值得精读,重点关注因果掩码条件从`num_keys - n <= BLOCK_N`到`n + n_size - 1 > m`的设计变更,这揭示了块状注意力中处理未来键的通用模式。工程师应学习如何通过钳位last_col避免越界写入,并在测试中覆盖边界情况。
原始 PR · 作者 yctseng0211 · 合并时间 2026-04-17 12:53
回退AMD GPU上的MXFP4量化模型支持,修复CI依赖安装失败。
该PR值得精读,以理解依赖版本不匹配如何导致功能回退的典型案例。关注点包括:1) petit.py中配置类的重构如何简化代码结构,2) petit_utils.py中的错误处理设计如何优雅降级,3) 配置文件的联动调整确保系统一致性。对于基础设施团队,可借鉴CI依赖管理的最佳实践。
参与讨论