Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

infra 相关 PR

2026-06-07
基础设施 重要性 5.43 洞察度 4.00

在 CI 中默认启用异步断言探测

该 PR 值得阅读,尤其是对负责 CI 基础设施和测试策略的工程师。它展示了如何通过环境变量集中管控运行时检查,并在保持零同步开销的前提下扩大验证覆盖。设计上清晰分离了 CUDA/AMD 与 NPU/MUSA 的配置,未来如果 NPU/MUSA 支持 `torch._assert_async`,只需简单添加环境变量即可。

2026-06-06
文档 重要性 4.08 洞察度 2.00

更新 NPU 文档与 CI/Docker 配置以支持软件版本升级

该 PR 属于常规文档和配置更新,无需要重点关注的技术决策。NPU 相关开发者和用户可阅读了解最新版本要求。

#27427 Add GB300 base C CI suite

原始 PR · 作者 Fridge003 · 合并时间 2026-06-06 17:27

基础设施 重要性 6.39 洞察度 5.00

在 CI 中添加 GB300 硬件测试套件并迁移 4-GPU 配置

值得精读,特别是 `test_numa_utils.py` 的重构模式和 `slash_command_handler.py` 中字段传递的设计。展示了如何在不入侵业务代码的前提下扩展 CI 硬件覆盖。对于需要新增 CI runner 的开发者有参考价值。

缺陷修复 重要性 5.95 洞察度 4.00

按 CI run 隔离 CUDA coredump 目录,修复误报

建议合并。该 PR 针对性的修复了 CI 基础设施中的一个实际问题,变更紧凑、逻辑清晰。值得关注的是 producer 和 uploader 之间通过注释保持目录解析逻辑一致的设计,以及通过环境变量 `RUNNER_TEMP` 利用 CI 自带的 per-job 临时目录机制。

测试 重要性 8.47 洞察度 6.00

新增 scripted-runtime 测试框架核心与调度器 IPC 钩子

值得对 scripted-runtime 感兴趣或有复杂调度测试需求的工程师阅读,尤其 ScriptedSchedulerHook 的 IPC 分发和 ScriptedHttpServer 的生命周期管理设计。

功能 重要性 6.55 洞察度 6.00

OOT平台插件设备检测修复与导入优化

此 PR 是硬件抽象层 RFC 的第一步落地,值得关注其设计取舍。对于平台集成者,建议精读 `device_mixin.py` 和 `device_config.py` 的变更以了解接口约定。对于核心开发者,注意后续需要清理剩余的延迟导入和硬编码检查。