Prhub

#21797 Fix killall.py crash when sglang is not yet installed

原始 PR 作者 hnyls2002 合并时间 2026-04-01 08:40 文件变更 1 提交数 2 评论 2 代码增减 +17 / -3

执行摘要

修复 killall.py 在 sglang 未安装时的导入崩溃问题,确保 CI 稳定。

PR body 中明确指出:'killall.py runs before pip install -e in CI, but since #21780 it imports from sglang.srt.utils.common import get_nvidia_driver_version_str',导致在 sglang 未安装的 runner(如新 runner 或路径变更时)上出现 ModuleNotFoundError,CI 测试确定性失败。

该 PR 变更简单直接,不值得精读,除非关注 CI 脚本细节或 import 依赖管理。可关注内联外部命令调用的模式,以避免模块导入依赖。

讨论亮点

无 review 评论或讨论,PR 直接由作者合并。

实现拆解

改动集中于单个文件 python/sglang/cli/killall.py_get_smi_version 函数。移除了导入语句 from sglang.srt.utils.common import get_nvidia_driver_version_str,并内联了 nvidia-smi 子进程调用,直接查询驱动版本。具体逻辑使用 subprocess.run 执行 nvidia-smi 命令,添加异常处理以确保失败时返回 None。

文件 模块 状态 重要度
python/sglang/cli/killall.py cli modified 4.0

关键符号

_get_smi_version

分析完成后,这里会展示 LLM 生成的相对完整源码片段和详细注释。

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论,后续有更多讨论时会体现在这里。

风险与影响

风险较低,因为变更仅替换了导入为直接命令调用,逻辑一致。潜在风险包括:nvidia-smi 命令可能在某些环境下不可用(如非 NVIDIA GPU),但已有 FileNotFoundError 处理;子进程调用可能因超时或权限问题失败,但设置了 10 秒超时和异常捕获。未新增测试覆盖,但修复本身通过 CI 验证。

影响仅限于 CI 运行中的 killall.py 脚本:解决了 runner 新安装或路径变更时的崩溃问题,提高 CI 稳定性和可靠性。对用户或生产系统无直接影响,因为 killall.py 主要用于 CI 清理过程。

依赖外部命令

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。

完整报告

参与讨论