#42709 [Bugfix] Ensure embeding model compilation on CPU
原始 PR · 作者 bigPYJ1151 · 合并时间 2026-05-15 18:58
修复 CPU 上 embedding 模型未编译的问题
该 PR 是 CPU 后端 embedding 模型性能退化的重要修复,建议精读并确认随机种子重置顺序是否需要调整。虽修复核心问题,但种子顺序可能引入隐藏的随机状态一致性问题,建议修复。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 bigPYJ1151 · 合并时间 2026-05-15 18:58
修复 CPU 上 embedding 模型未编译的问题
该 PR 是 CPU 后端 embedding 模型性能退化的重要修复,建议精读并确认随机种子重置顺序是否需要调整。虽修复核心问题,但种子顺序可能引入隐藏的随机状态一致性问题,建议修复。
修复 Gemma3 多 GPU 下形状不匹配 bug
值得合并,属于典型的一行修复 bug。可快速批准合并。建议未来在类似 `RowParallelLinear` 的使用处也显式指定 `input_is_parallel` 参数以增强可读性。
原始 PR · 作者 jperezdealgaba · 合并时间 2026-05-15 17:31
修复 revision/code_revision 未传递到所有模型加载路径的问题
建议合并。这是正确性问题修复,变更小而专注,有测试覆盖(GGUF 路径),且所有改动的模式一致:在缺少 revision/code_revision 参数传递的地方补上。值得关注的设计决策是统一使用 `model_config.revision` 和 `model_config.code_revision` 作为唯一来源,避免后续新增加载路径再次遗漏。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-05-15 16:49
AMD CI 第二阶段镜像门禁配置
值得关注该 PR 作为 AMD CI 基础设施分阶段扩展的一部分。建议确保所有 mirror 块包含必要的环境变量,并考虑逐步将 optional 测试提升为强制测试以提高覆盖质量。
原始 PR · 作者 bobofang11235 · 合并时间 2026-05-15 16:45
DSV4 Pro 启用 FULL_AND_PIECEWISE CUDA 图模式
值得精读,尤其是为 CUDA 图提供稳定元数据 buffer 的做法以及处理嵌套编译冲突的思路。对于动态 shape 切片的潜在性能问题可进一步优化,但作为快速启用已足够。后续 PR 应关注准确率修复和单元测试补充。
将 pooling 离线推理逻辑抽取为 PoolingOfflineMixin
值得精读,尤其是对 vLLM 架构感兴趣的工程师。该 PR 展示了如何通过 Mixin 模式将大型类中的功能域解耦,同时保持对外接口不变。为将来进一步拆分 LLM 类或其他类复用 pooling 逻辑提供了参考。建议关注初始化顺序的设计和文档链接的变更。
跳过无法命中 Prefix Cache 的 SWA 块
值得精读,设计模式(通过 mask 避免无效缓存)可供类似场景借鉴。但需关注 review 中提出的共享物理块断言风险和事件过滤问题,建议在后续 PR 中验证并修复可能的问题。
简化 OOT 层与 LoRA 层替换的兼容性
该 PR 改动较小且逻辑清晰,无明显风险,适合快速合并。可作为其他自定义层与 LoRA 集成的参考模式。
参与讨论