执行摘要

更新 CUDA 图内存分析日志中的版本号，从 v0.19 改为 v0.21。

根据PR描述，当前日志中的版本号已过时，需要更新为v0.21。作者提到PR #38284将很快落地，但不会作为v0.20的一部分，因此需要提前更新日志以避免误导用户。

此PR变更简单，无需精读。值得关注的点是版本号更新的及时性，反映了项目发布计划的调整。对于了解CUDA图内存分析功能演进方向的开发者，可留意相关PR #38284。

讨论亮点

review评论较少，主要确认变更简单直接：

gemini-code-assist[bot]指出“changes are straightforward version updates in log strings”，无其他反馈。
tlrmchlsmth直接批准，无额外讨论。

实现拆解

修改日志消息版本号：在文件vllm/v1/worker/gpu_worker.py的determine_available_memory方法中，将两处日志字符串中的版本号从v0.19改为v0.21。
具体变更位置：第一处是当VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1时，日志提示“This will become the default in v0.21.”；第二处是当该环境变量未设置时，日志提示“In v0.21, CUDA graph memory profiling will be enabled by default...”。
无配套改动：此变更仅涉及日志字符串，没有测试、配置、schema或部署配套改动。

文件	模块	状态	重要度
`vllm/v1/worker/gpu_worker.py`	GPU 工作器	modified	4.04

关键符号

determine_available_memory

关键源码片段

vllm/v1/worker/gpu_worker.py logging

唯一变更文件，包含 CUDA 图内存分析的日志输出逻辑，版本号更新在此处进行。

def determine_available_memory(self) -> int:
    # ... 其他内存分析逻辑 ...

    if cudagraph_memory_estimate > 0:
        total_mem = self.init_snapshot.total_memory
        current_util = self.cache_config.gpu_memory_utilization
        cg_util_delta = cudagraph_memory_estimate / total_mem

        if envs.VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS:
            # 当环境变量启用时，提示 CUDA 图内存分析将在 v0.21 成为默认
            logger.info(
                "CUDA graph memory profiling is enabled "
                "(VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1). "
                "This will become the default in v0.21. " # 从 v0.19 更新为 v0.21
                "The current --gpu-memory-utilization=%.4f is equivalent "
                "to --gpu-memory-utilization=%.4f without CUDA graph "
                "memory profiling. To maintain the same effective KV "
                "cache size as before, increase "
                "--gpu-memory-utilization to %.4f.",
                current_util,
                equiv_util,
                suggested_util,
            )
        else:
            # 当环境变量未启用时，提示在 v0.21 将默认启用
            logger.info(
                "In v0.21, CUDA graph memory profiling will be enabled " # 从 v0.19 更新为 v0.21
                "by default (VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1), "
                "which more accurately accounts for CUDA graph memory "
                "during KV cache allocation. To try it now, set "
                "VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1 and increase "
                "--gpu-memory-utilization from %.4f to %.4f to maintain "
                "the same effective KV cache size.",
                current_util,
                suggested_util,
            )

    return int(self.available_kv_cache_memory_bytes)

评论区精华

没有提炼出高价值讨论线程

当前评论区没有形成足够清晰的争议点或结论，后续有更多讨论时会体现在这里。

风险与影响

技术风险极低：

回归风险：无，仅修改日志字符串，不影响核心逻辑。
性能风险：无，日志输出频率和内容不变。
安全风险：无，不涉及数据或权限。
兼容性风险：无，不改变API或行为。

影响范围有限：

对用户：仅更新日志信息，避免用户因版本号过时而产生困惑，提升用户体验。
对系统：无功能影响，系统行为不变。
对团队：维护日志准确性，减少后续沟通成本。

无功能影响

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：更新CUDA图内存分析日志中的版本号，从v0.19改为v0.21。
推荐动作：此PR变更简单，无需精读。值得关注的点是版本号更新的及时性，反映了项目发布计划的调整。对于了解CUDA图内存分析功能演进方向的开发者，可留意相关PR #38284。

功能与动机

实现拆解

修改日志消息版本号：在文件vllm/v1/worker/gpu_worker.py的determine_available_memory方法中，将两处日志字符串中的版本号从v0.19改为v0.21。
具体变更位置：第一处是当VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1时，日志提示“This will become the default in v0.21.”；第二处是当该环境变量未设置时，日志提示“In v0.21, CUDA graph memory profiling will be enabled by default...”。
无配套改动：此变更仅涉及日志字符串，没有测试、配置、schema或部署配套改动。

关键文件：

vllm/v1/worker/gpu_worker.py（模块 GPU工作器；类别 source；类型 logging；符号 determine_available_memory）: 唯一变更文件，包含CUDA图内存分析的日志输出逻辑，版本号更新在此处进行。

关键符号：determine_available_memory

关键源码片段

`vllm/v1/worker/gpu_worker.py`

唯一变更文件，包含CUDA图内存分析的日志输出逻辑，版本号更新在此处进行。

def determine_available_memory(self) -> int:
    # ... 其他内存分析逻辑 ...

    if cudagraph_memory_estimate > 0:
        total_mem = self.init_snapshot.total_memory
        current_util = self.cache_config.gpu_memory_utilization
        cg_util_delta = cudagraph_memory_estimate / total_mem

        if envs.VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS:
            # 当环境变量启用时，提示 CUDA 图内存分析将在 v0.21 成为默认
            logger.info(
                "CUDA graph memory profiling is enabled "
                "(VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1). "
                "This will become the default in v0.21. " # 从 v0.19 更新为 v0.21
                "The current --gpu-memory-utilization=%.4f is equivalent "
                "to --gpu-memory-utilization=%.4f without CUDA graph "
                "memory profiling. To maintain the same effective KV "
                "cache size as before, increase "
                "--gpu-memory-utilization to %.4f.",
                current_util,
                equiv_util,
                suggested_util,
            )
        else:
            # 当环境变量未启用时，提示在 v0.21 将默认启用
            logger.info(
                "In v0.21, CUDA graph memory profiling will be enabled " # 从 v0.19 更新为 v0.21
                "by default (VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1), "
                "which more accurately accounts for CUDA graph memory "
                "during KV cache allocation. To try it now, set "
                "VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1 and increase "
                "--gpu-memory-utilization from %.4f to %.4f to maintain "
                "the same effective KV cache size.",
                current_util,
                suggested_util,
            )

    return int(self.available_kv_cache_memory_bytes)

评论区精华

review评论较少，主要确认变更简单直接：

gemini-code-assist[bot]指出“changes are straightforward version updates in log strings”，无其他反馈。
tlrmchlsmth直接批准，无额外讨论。
暂无高价值评论线程

风险与影响

风险：技术风险极低：
- 回归风险：无，仅修改日志字符串，不影响核心逻辑。
- 性能风险：无，日志输出频率和内容不变。
- 安全风险：无，不涉及数据或权限。
- 兼容性风险：无，不改变API或行为。
影响：影响范围有限：
- 对用户：仅更新日志信息，避免用户因版本号过时而产生困惑，提升用户体验。
- 对系统：无功能影响，系统行为不变。
- 对团队：维护日志准确性，减少后续沟通成本。
- 风险标记：无功能影响

关联脉络

PR #38284 [MRv2]fix: model accuracy regression caused by reusing the stale last_sampled_tokens and draft_tokens: PR描述中提到此PR将很快落地，但不会作为v0.20的一部分，与本PR的版本号更新相关，可能涉及CUDA图内存分析功能的进一步演进。

#40465 [UX] Bump version in CG memory profiling log message

执行摘要

更新 CUDA 图内存分析日志中的版本号，从 v0.19 改为 v0.21。

实现拆解

评论区精华

没有提炼出高价值讨论线程

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

关键源码片段

`vllm/v1/worker/gpu_worker.py`

评论区精华

风险与影响

关联脉络

参与讨论