执行摘要
该PR在ROCm平台上启用了混合分块预填充测试,通过移除CUDA-only跳过标记和添加特定模型跳过条件,同时扩展CI配置以支持4xMI325 GPU测试环境,提高了vLLM在AMD硬件上的测试覆盖率。
功能与动机
动机源于扩展ROCm平台测试覆盖的需求。PR描述指出:'移除测试文件中的全局CUDA-only跳过,让测试在ROCm上运行',并'为NVIDIA Nemotron模型添加ROCm上的目标跳过,因为modelopt量化不在ROCm支持的量化列表中'。这旨在确保混合分块预填充功能在AMD硬件上的正确性和兼容性。
实现拆解
- CI配置扩展:在
.buildkite/test-amd.yaml中新增一个测试步骤,使用4xMI325 GPU运行test_hybrid_chunked_prefill.py测试,指定硬件和依赖文件。
- 测试逻辑调整:在
tests/v1/e2e/test_hybrid_chunked_prefill.py中:
- 移除:
@pytest.mark.skipif(not current_platform.is_cuda(), reason="CUDA not available")
- 添加:为NVIDIA Nemotron模型参数添加
pytest.mark.skipif(not current_platform.is_cuda(), reason="modelopt quantization is supported only on CUDA")
评论区精华
review中仅有一条讨论:tjtanaa 评论'Since the original condition is not current_platform.is_cuda() let's retain the check as not current_platform.is_cuda()',强调测试跳过条件的语法一致性。作者AndreasKaratzas迅速回应并修改代码,评论为'Done :)',确保条件正确设置。
风险与影响
风险:新增CI步骤可能增加资源消耗;特定模型跳过可能影响测试完整性;跨平台依赖外部量化支持列表。
影响:对用户无直接影响;对系统提升ROCm测试覆盖,有助于早期问题发现;对团队优化CI流程,支持多GPU测试。
关联脉络
与本PR相关的历史PR包括38450(ROCm CI修复)、38414(ROCm变体更新)、38108(ROCm测试修复),共同体现vLLm项目对ROCm平台的持续集成和测试扩展趋势。
参与讨论