Prhub

#27358 HiCache: Fix Flaky CI For 3FS Backend

原始 PR 作者 hzh0425 合并时间 2026-06-05 22:00 文件变更 1 提交数 1 评论 7 代码增减 +1 / -1

执行摘要

修复 HiCache 3FS 测试的 CI 配置

该 PR 旨在修复 HiCache 3FS 后端测试的不稳定 CI 问题。PR body 提到 'Fix Flaky CI For 3FS Backend',目的是通过调整测试运行的 GPU 配置来解决测试失败。

建议回退该 PR 的变更,或同步更新 CI 套件配置(如 .github/workflows/pr-test.yml 等),确保 base-b-test-4-gpu-h100 套件存在。同时,应审查测试是否确实需要 4 GPU 资源,或者是否可以通过其他方式(如增加超时、重试机制)来解决不稳定问题。

讨论亮点

该 PR 的讨论主要围绕 CI 验证。作者和合并者分别触发了 /rerun-test 命令,重新运行了 test_hicache_storage_3fs_backend.py 测试,两次都通过了。然而,合并后其他 PR 的 CI 运行出现了套件验证错误,提示该测试文件被注册到无效套件 base-b-test-4-gpu-h100,原因是 register_cuda_ci(est_time=150, stage="base-b", runner_config="4-gpu-h100") 中的 stagerunner_config 组合未在 CI 套件配置中定义。其他贡献者随后报告了该问题。

实现拆解

  1. 修改测试注册配置:在文件 test/registered/hicache/test_hicache_storage_3fs_backend.py 中,将 register_cuda_ci 调用的 runner_config 参数从 2-gpu-large 改为 4-gpu-h100,其他参数保持不变。
  2. 保留 AMD 配置:AMD CI 的注册行 register_amd_ci(est_time=300, suite="base-b-test-2-gpu-large") 未作更改。
  3. 提交说明:单个 commit,提交信息为 "Change machine"。
文件 模块 状态 重要度
test/registered/hicache/test_hicache_storage_3fs_backend.py 测试配置 modified 3.25

关键源码片段

test/registered/hicache/test_hicache_storage_3fs_backend.py test-coverage

唯一变更文件,将 CUDA CI 注册的 runner_config 从 '2-gpu-large' 改为 '4-gpu-h100',以修复测试不稳定问题。

"""
# 文件: test/registered/hicache/test_hicache_storage_3fs_backend.py
# 变更说明:将 CUDA CI 注册从 2-gpu-large 改为 4-gpu-h100,
# 期望提升测试稳定性。注意:同时需要确保 CI 套件配置中存在
# base-b-test-4-gpu-h100 套件,否则会导致 CI 套件验证失败。
"""import json
import os
import unittestfrom test_hicache_storage_file_backend import HiCacheStorageBaseMixinfrom sglang.test.ci.ci_register import register_amd_ci, register_cuda_ci
from sglang.test.test_utils import CustomTestCase# 变更行:runner_config 从 "2-gpu-large" 改为 "4-gpu-h100"
register_cuda_ci(est_time=150, stage="base-b", runner_config="4-gpu-h100")
register_amd_ci(est_time=300, suite="base-b-test-2-gpu-large")
​
​
class HiCacheStorage3FSBackendBaseMixin(HiCacheStorageBaseMixin):
    """Base mixin class with common setup and utilities"""
​
    @classmethod
    def _get_additional_server_args_and_env(cls):
        # ... 剩余代码保持不变

评论区精华

CI 套件验证失败 bug

合并该 PR 后,其他 PR 的 CI 运行出现套件验证错误,提示测试文件注册到了无效套件 'base-b-test-4-gpu-h100'。

结论:该问题由 PR 变更引起,需修复 CI 配置或回退变更。 · unresolved

风险与影响

主要风险是 CI 配置错误:将 CUDA 测试的 runner_config 改为 4-gpu-h100 但未更新相应的 CI 套件配置,导致 CI 在套件验证阶段失败。该问题已在实际 CI 运行中被确认。修复后需确保 base-b-test-4-gpu-h100 套件已正确配置。

直接影响是 HiCache 3FS 测试的 CUDA CI 运行环境从 2 GPU 变为 4 GPU H100,预期能提升测试稳定性。负面影响是当前配置导致了 CI 套件验证失败,影响了所有 PR 的 CI 运行。需紧急修复套件配置或回退变更。

CI 配置错误 影响其他 PR CI 缺少配套配置更新

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论