#22045 [CI] Adjust CI server launch timeout

原始 PR 作者 ispobock 合并时间 2026-04-03 22:38 文件变更 3 提交数 1 评论 4 代码增减 +5 / -2

执行摘要

为 CI 测试模型配置添加可自定义的服务器启动超时参数，解决特定测试超时问题。

PR body中直接引用了一个失败的CI运行链接（https://github.com/sgl-project/sglang/actions/runs/23928333410/job/69789912643），表明该变更旨在修复该CI失败。从关联Issue评论中作者ispobock执行了/rerun-test test_ring_2_5_1t.py和/tag-and-rerun-ci命令，结合修改文件test_ring_2_5_1t.py，可推断该CI失败与8-GPU模型测试的服务器启动超时相关。

该PR变更简单直接，适合快速浏览以了解CI超时配置的扩展机制。值得关注的设计决策是采用model.launch_timeout or DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH的条件回退模式，但需注意其潜在陷阱（如0值处理）。建议结合review评论，在实际使用中补充参数文档。

讨论亮点

review中仅有一条来自gemini-code-assist[bot]的评论，指出新增的launch_timeout参数缺少类文档字符串（docstring）和类型提示的文档，建议添加简要描述以提升可维护性。该评论被标记为中等优先级，但未在PR中看到后续回应或修改。讨论焦点在于代码文档的完整性，而非功能正确性或设计争议。

实现拆解

实现分为三个关键改动点：

在python/sglang/test/test_utils.py的ModelConfig类__init__方法中新增可选参数launch_timeout，类型为Optional[float]，默认None。
在python/sglang/test/accuracy_test_runner.py的两个函数_run_simple_eval和_run_nemo_skills_eval中，将硬编码的DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH替换为条件表达式model.launch_timeout or DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH，使模型配置可覆盖默认超时。
在test/registered/8-gpu-models/test_ring_2_5_1t.py的测试用例中，为ModelConfig实例显式设置launch_timeout=1800（30分钟），针对该特定测试延长超时。

文件	模块	状态	重要度
`python/sglang/test/test_utils.py`	测试工具	modified	7.0
`python/sglang/test/accuracy_test_runner.py`	测试运行器	modified	6.0
`test/registered/8-gpu-models/test_ring_2_5_1t.py`	8-GPU 模型测试	modified	5.0

关键符号

ModelConfig.__init__ _run_simple_eval _run_nemo_skills_eval

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

launch_timeout 参数文档缺失 documentation

gemini-code-assist[bot] 指出新增参数未在类文档字符串或类型提示中说明，可能影响代码可维护性。

结论：未观察到回复或修改，文档问题未解决。 · 待处理

风险与影响

技术风险较低：

回归风险：变更核心是参数传递逻辑，不影响现有测试的默认行为（当launch_timeout为None时仍使用原默认超时），但需确保条件表达式model.launch_timeout or DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH在launch_timeout为0时不会错误地回退到默认值（因为0在Python中视为False）。从代码看launch_timeout类型为Optional[float]，通常超时值应大于0，但若未来误设为0可能导致超时失效。
兼容性：新增参数为可选，不影响现有代码调用，但未更新类文档字符串可能影响开发者理解新参数用途。
性能与安全：无直接影响。

影响范围有限：

对用户：作为CI基础设施调整，不影响终端用户功能。
对系统：仅影响测试框架的服务器启动超时处理，可能减少因超时导致的CI失败，提升测试稳定性。
对团队：为后续类似测试场景提供了自定义超时的灵活性，但需注意文档缺失可能增加维护成本。影响程度为低到中，主要针对特定测试用例的CI可靠性。

文档缺失条件表达式潜在陷阱

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

本PR在测试框架中为模型配置添加了可自定义的服务器启动超时参数launch_timeout，允许针对特定测试（如8-GPU模型测试）设置更长超时，以解决因模型加载时间过长导致的CI失败。变更涉及测试工具类和具体测试用例，风险较低，但参数文档未更新可能影响可维护性。

功能与动机

该PR旨在修复一个具体的CI失败（链接：https://github.com/sgl-project/sglang/actions/runs/23928333410/job/69789912643）。从关联Issue评论中作者执行了重跑测试命令/rerun-test test_ring_2_5_1t.py，结合修改文件test_ring_2_5_1t.py，可推断失败原因是8-GPU模型测试中服务器启动时间超过默认超时，导致CI中断。因此，PR通过扩展测试配置能力，为这类资源密集型测试提供更灵活的超时控制。

实现拆解

实现分为三个层次：

配置扩展：在python/sglang/test/test_utils.py的ModelConfig类中新增可选参数launch_timeout，类型为Optional[float]，默认None。
```
launch_timeout: Optional[float] = None,
```
逻辑集成：在python/sglang/test/accuracy_test_runner.py的两个函数_run_simple_eval和_run_nemo_skills_eval中，将硬编码超时替换为条件回退逻辑：
```
timeout=model.launch_timeout or DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH,
```
用例适配：在test/registered/8-gpu-models/test_ring_2_5_1t.py中，为测试模型显式设置launch_timeout=1800（30分钟），覆盖默认值。

评论区精华

Review中仅有一条来自gemini-code-assist[bot]的评论，聚焦于代码文档：

The launch_timeout parameter is added to the constructor but not documented in the class docstring or type hints for clarity. Adding a brief description would improve maintainability.

该评论指出新增参数缺乏文档描述，可能影响开发者理解和使用，但未引发进一步讨论或修改。

风险与影响

风险：
- 条件表达式model.launch_timeout or DEFAULT_TIMEOUT_FOR_SERVER_LAUNCH在launch_timeout为0时会错误地回退到默认值（因为0在Python中视为False），但当前使用场景中超时值应大于0，风险可控。
- 参数文档缺失可能增加维护成本，需后续补充。
影响：
- 对CI稳定性：可减少特定测试因超时导致的失败，提升测试可靠性。
- 对开发者：提供了自定义超时的灵活性，但需注意文档缺口。
- 不影响现有测试默认行为，兼容性良好。

关联脉络

从近期历史PR看，本PR与多个CI基础设施调整相关（如PR#22031临时禁用准确性测试、PR#22001修复工作流作业名称），共同反映了团队对CI稳定性和效率的持续优化。本PR采用“延长超时”而非“禁用测试”的策略，体现了在保证测试覆盖的前提下解决资源争用问题的思路。未来类似大型模型测试可能需要借鉴此模式，但需平衡超时设置与CI执行时间。

#22045 [CI] Adjust CI server launch timeout

执行摘要

为 CI 测试模型配置添加可自定义的服务器启动超时参数，解决特定测试超时问题。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

参与讨论