#42822 add gelu_tanh to xpu moe backend supported activations
原始 PR · 作者 yintong-lu · 合并时间 2026-05-29 14:37
XPU MoE 支持 gelu_tanh 激活函数
该 PR 为简单的兼容性修复,建议快速合并,但需确保关联的 xpu-kernels PR 已合入并更新依赖。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 yintong-lu · 合并时间 2026-05-29 14:37
XPU MoE 支持 gelu_tanh 激活函数
该 PR 为简单的兼容性修复,建议快速合并,但需确保关联的 xpu-kernels PR 已合入并更新依赖。
将非 root smoke 测试从镜像构建步骤中分离
建议快速合并。这是一个纯粹的 CI 改进,逻辑清晰,风险极低,能有效提升 CI 可见性和效率。
原始 PR · 作者 cleonard530 · 合并时间 2026-05-29 12:44
迁移注意力与缓存内核至 torch stable ABI
此 PR 是持续 ABI 迁移的重要一环,值得核心开发者精读。重点关注 `concat_mla_q` 调度类型迁移的修复过程、头文件移动策略的讨论、以及 `quant_utils.cuh` 部分稳定性的权衡。这些模式将指导后续阶段。 普通审阅者应关注构建是否正确、测试是否覆盖以避免回归。 建议团队在后续 PR 中尽快完成 `quant_utils.cuh` 的完全迁移,并考虑为缓存操作添加更多单元测试。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-29 12:29
跨模块移除不可达死代码与废弃配置
该 PR 是良好的常规清理,值得关注每个删除项的理由。尤其推荐注意 longcat_flash_mtp 分支被前序逻辑覆盖的设计模式,以及 fused_moe 中如何通过删除参数来消除死分支。对于代码审查者,建议验证每个删除确实无外部依赖。
跳过 decode 阶段 KV block 的 CPU 卸载
值得精读,特别是如何通过 clamp 操作实现大幅性能提升,以及 Review 过程中设计演进(默认值、命名)的决策思路。
XPU FP8 MoE 层支持 scale 转置
该 PR 修复了一个明确的 bug,改动量小且正确性经过 review 确认。值得合并,但建议后续补充针对不同 scale 维度的单元测试。
简化 encoder CUDA graph 接口,统一输入结构
值得精读。该 PR 展示了围绕“函数签名应与捕获图一致”这一核心原则进行抽象重构的过程,设计权衡清晰(分离 vs 合并 input/metadata)。对理解 vLLM 多模态 CUDA graph 机制和架构演进方向(RFC #38175)很有帮助,也揭示了如何通过接口调整支持非 GPU 后端。
原始 PR · 作者 JaredforReal · 合并时间 2026-05-29 10:56
新增 GLMGA/GLM-4.6V-Flash 多模态支持
该 PR 实现了必要的新模型支持,但存在若干风险点(除零、类型安全、断言硬失败),建议在后续 PR 中修复。值得关注的决策包括:通过处理器类名探测变体、视频帧偶数填充以符合 HF temporal patch 要求。
参与讨论