#1809 fix missing position_ids in log-prob forward step
作者 znculee · 合并时间 2026-04-07 12:26
修复GPT模型前向传播中position_ids参数缺失导致的TypeError。
该PR值得快速浏览以了解回归修复模式。关注点: 1. 学习如何通过添加默认参数(position_ids: None)解决前向签名不匹配问题。 2. 结合PR #1807分析重构引入的副作用,理解Megatron模型前向参数构建的演进。 3. 对于涉及核心训练路径的变更,建议补充单元测试以避免类似回归。
参与讨论