#7180 [XPU] Unify Spec and non-spec branch.(#6947)
作者 Jiajun-Ji · 合并时间 2026-04-16 14:58
在XPU平台统一推测解码和非推测解码分支,新增草稿令牌验证算子。
该PR值得精读,重点关注sampler逻辑拆分、gather_next_token接口统一以及verify_draft_tokens算子的设计,这些决策体现了跨平台架构对齐和模块化设计。
标签列表
聚合结果
作者 Jiajun-Ji · 合并时间 2026-04-16 14:58
在XPU平台统一推测解码和非推测解码分支,新增草稿令牌验证算子。
该PR值得精读,重点关注sampler逻辑拆分、gather_next_token接口统一以及verify_draft_tokens算子的设计,这些决策体现了跨平台架构对齐和模块化设计。
作者 luukunn · 合并时间 2026-04-15 19:01
重构多模态处理器,抽取编码策略类并统一处理流程,减少重复代码。
该 PR 值得精读,特别是了解组合模式设计(Encoding 策略与 MultiModalProcessor 解耦)和配置驱动机制(MMModelConfig 注册表)。关注关键文件如 `multimodal_processor.py` 和 `encodings/` 目录,以及 review 中讨论的资源泄漏和边界 token 处理决策。
作者 zhoutianzi666 · 合并时间 2026-04-13 20:24
为FusedMoE添加显式hidden_size参数,解耦对配置的依赖,提高灵活性。
建议**中等精读**。值得关注的设计决策在于从隐式依赖配置改为显式参数传递的解耦模式,这是提高代码模块化的常见手法。特别需注意review中未解决的`hidden_size`默认值风险,在后续开发或评审类似改动时应考虑添加参数验证或更安全的默认策略。
作者 ShigureNyako · 合并时间 2026-04-13 11:43
将Paddle临时兼容别名替换为公共API,完成组织范围清理。
此PR值得快速浏览以了解API清理模式,但无需深究设计细节,因为变更简单直接;工程师可关注测试mock更新方式,确保测试隔离。
作者 Jiajun-Ji · 合并时间 2026-04-13 11:04
重构 XPU get_padding_offset 为单内核实现,对齐 GPU 并优化性能。
建议技术管理者关注此 PR 的边界检查设计,工程师可精读内核合并的实现细节,特别是 shared memory 使用和同步策略,以了解 XPU 算子优化模式。
作者 Jiang-Jia-Jun · 合并时间 2026-04-12 13:59
移除CacheManager与WorkerProcess间的IPCLock进程间锁,优化性能并简化IPC组件。
建议精读以理解锁移除的设计决策,关注作者提到的Kernel bug修复细节。值得关注点包括swap任务同步机制如何确保互斥,以及是否有隐式测试覆盖。对于风险较高的DP+EP配置,建议团队补充回归测试。
作者 zhoutianzi666 · 合并时间 2026-04-11 22:39
优化MoE层属性访问,使用缓存的self.hidden_size替代嵌套配置访问。
该PR变更简单直接,属于常规代码优化,无需深入精读。值得关注的点是: 1. 展示了在性能敏感代码中避免重复嵌套访问的设计模式。 2. 提醒了在修改代码时需同步更新相关测试的实践。 建议工程师在类似场景中参考这种将配置属性缓存到类成员的做法。
作者 Wanglongzhi2001 · 合并时间 2026-04-08 20:13
回滚OpenAI协议中为视频基准测试临时添加的video_fps参数。
该PR值得快速浏览以了解API清理决策,但技术内容简单。关注点:1) 回滚决策反映临时参数应避免加入核心协议;2) 视频处理参数传递的最佳实践(通过mm_processor_kwargs)。无需深入代码分析。