执行摘要
修复 benchmark_fused_collective.py 中 FP4 量化操作的参数调用错误。
根据 PR body,错误为 SCALED_FP4_QUANT_OP 调用时参数不匹配:_C::scaled_fp4_quant() 期望最多 3 个参数但收到 4 个,且第三个参数应为 bool 类型却收到 FakeTensor。修复目的是使 benchmark 脚本能够正常运行,避免因编译错误导致性能测试失败,具体错误消息显示为 'Expected a value of type 'bool' for argument 'is_sf_swizzled_layout' but instead found type 'FakeTensor''。
该 PR 变更较小,但涉及量化操作符的正确调用和代码重构,对于关注性能优化、torch.compile 兼容性或量化技术的工程师值得快速浏览。建议关注 SCALED_FP4_QUANT_OUT_OP 的使用方式,以及重构如何简化条件逻辑。
review 中,gemini-code-assist[bot] 指出 allreduce_rmsnorm_fp4_quant 函数中 SCALED_FP4_QUANT_OUT_OP 的调用在 if 和 else 分支重复,建议重构以提升可读性和可维护性,并提供了具体代码示例。作者 jeejeelee 回复 'Fix',而 diff_hunk 显示代码最终被重构,量化操作调用被移到条件块外,表明该建议被采纳。无未解决的疑虑或争议。
参与讨论