修复 CI 路径过滤规则,避免扩散模型相关修改误触发 LLM 测试任务。
该 PR 是典型的 CI 配置修复,逻辑清晰且改动集中。对于**基础设施维护者**和**经常提交扩散模型相关代码的开发者**,值得快速浏览以了解 CI 触发规则的更新。关注点在于路径排除模式的扩展逻辑以及 review 中关于配置语法的细节讨论。对于不涉及 CI 或扩散模型开发的工程师,无需深入阅读。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 CI 路径过滤规则,避免扩散模型相关修改误触发 LLM 测试任务。
该 PR 是典型的 CI 配置修复,逻辑清晰且改动集中。对于**基础设施维护者**和**经常提交扩散模型相关代码的开发者**,值得快速浏览以了解 CI 触发规则的更新。关注点在于路径排除模式的扩展逻辑以及 review 中关于配置语法的细节讨论。对于不涉及 CI 或扩散模型开发的工程师,无需深入阅读。
修复 DeepGeMM 编译阶段 DeepEP 超时问题,通过全局同步屏障和全 DP 预热请求确保跨节点编译一致性。
该 PR 值得精读,尤其是 `_deepep_precompile_tp_barrier` 的设计和屏障插入位置,展示了如何在第三方库(DeepEP)超时机制不足时,利用上层同步原语(torch.distributed)进行保护。同时,预热请求的改造体现了对 DP 并行度感知的编译触发策略。
将 SessionController 和 SessionAwareCache 移至专用 session 包,纯重构无行为变更。
该 PR 是典型的代码组织结构优化,**值得快速浏览以了解模块划分的演进方向**,但无需深入分析实现细节。关注点在于: 1. **设计决策**:将分散的会话管理组件集中到独立包,体现了“高内聚”的设计原则。 2. **重构模式**:可作为纯路径迁移的参考案例,展示了如何安全地移动文件并更新所有依赖。 建议后续开发者在添加新的会话相关功能时,优先考虑放入 `session/` 包,以保持架构的一致性。
原始 PR · 作者 Baidu-AIAK · 合并时间 2026-04-20 08:23
引入统一插件框架和跨硬件平台抽象层
强烈建议精读。该 PR 是 SGLang 迈向多平台生态的关键一步,其设计决策(Mixin 组合、钩子注册表、惰性平台发现)值得学习。特别关注 `hook_registry.py` 中钩子装饰器的实现和 `platforms/__init__.py` 中的发现流程,以及如何在现有代码中最小侵入地引入扩展点。文档 `plugin.md` 也是快速上手的良好参考。
将每周 CI 测试 est_time 更新调整到周一执行,并改用 p90 百分位数和更大样本窗口优化负载均衡。
此 PR 值得负责 CI 基础设施的工程师精读,特别是关注 `scripts/ci/update_est_time.py` 中的统计学方法和阈值设计,这些决策直接影响测试调度的准确性和效率。对于其他开发者,了解此变更有助于理解 CI 测试时间估计的更新机制。
修复调度器会话错误路径中缺失的 http_worker_ipc 字段,避免多 HTTP 工作进程场景下的响应路由错误。
该 PR 变更微小且聚焦,**无需精读**,但值得关注其作为重构后遗漏字段的典型案例。对于维护者,建议检查其他类似的重构场景,确保所有路径的参数一致性。
原始 PR · 作者 billishyahao · 合并时间 2026-04-20 03:42
修复AMD平台上aiter后端CUDA图初始化时的运行时错误,通过重分配缓冲区适配填充批次大小。
建议精读`aiter_backend.py`中的`init_cuda_graph_state`方法变更,关注缓冲区动态重分配的设计决策和dtype统一策略,这反映了CUDA图优化中的内存管理权衡。
原始 PR · 作者 yctseng0211 · 合并时间 2026-04-19 23:16
为 AMD 多模态 2-GPU 测试增加分区,解决因单分区运行过多参数化测试导致的超时问题。
该 PR 变更简单直接,主要涉及 CI 配置调整,无需深入阅读源码。对于关注 CI 基础设施或 AMD 平台测试稳定性的工程师,可快速浏览以了解分区策略的优化方法。
参与讨论