#5989 [megatron] fix: add missing FP8 padding for router replay
作者 eternally-z · 合并时间 2026-04-15 22:01
修复Megatron路由器重放路径缺失FP8填充逻辑,确保FP8训练结果正确。
该PR值得精读,特别是关注FP8配置如何集成到现有路由器重放流程中。值得关注的设计决策包括: 1. 通过`tf_config.fp8 in ["e4m3", "hybrid"]`判断是否启用FP8填充,这反映了项目对FP8训练模式的标准化处理。 2. 将填充参数统一传递给预处理函数,展示了配置参数在数据流水线中的传递模式。 建议结合review评论思考安全性和性能的潜在改进空间。