修复 DP-attention 偶数 token 填充导致 NaN 崩溃
值得精读。这是一个典型的高影响力小修复案例:通过集中化逻辑和条件化对齐,解决了由之前 PR 引入的回归问题。设计决策(仅对 zigzag 模式应用 2x 对齐)体现了对 CP 内部机制的理解。建议工程师关注: - 如何通过提取函数避免两个调用点的重复逻辑和潜在不一致性。 - Review 中的设计讨论如何推动了更简洁的实现。 - FIXME 注释标记了一个潜在的未来改进方向(让 draft prefill-extend 容忍填充的虚拟 token)。
参与讨论