执行摘要
在 MI325 上启用内核核心测试,并跳过 MI250 上因量化精度导致的 flaky 测试。
PR body中指出,在MI250上运行test_fused_rms_norm_quant测试时,由于量化边界舍入导致的数值精度问题,出现16个失败。作者选择跳过这些测试而不是放宽容差,以防止降低测试标准,并确保测试在MI325上正常运行。
建议关注此PR中处理硬件特定flakiness的策略,以及测试覆盖率的权衡。对于涉及跨平台测试的团队,可借鉴条件性跳过测试的方法,但需确保核心逻辑不受影响,并考虑长期维护成本。
review中主要讨论点包括:gemini-code-assist[bot]指出修改ADD_RESIDUAL会影响test_rms_norm和test_fused_rms_norm_quant两个测试,减少测试覆盖率,建议解耦参数列表。作者micah-wil回复'that's fine',表示接受此影响。tjtanaa强调需在非ROCm平台保护vllm.platforms.rocm导入,并建议将变量名从on_gfx90a改为on_mi250,这些已在后续提交中修正。讨论中未解决的主要疑虑是测试覆盖率的取舍,但团队已达成一致。
参与讨论