#43963 [XPU] Enable rms_norm/act quant fusions
原始 PR · 作者 zhenwei-intel · 合并时间 2026-06-03 00:14
XPU 启用 norm/act 量化融合
该 PR 值得合并,但建议作者补充测试用例验证 XPU 上融合 pass 的正确性和性能。
标签列表
聚合结果
原始 PR · 作者 zhenwei-intel · 合并时间 2026-06-03 00:14
XPU 启用 norm/act 量化融合
该 PR 值得合并,但建议作者补充测试用例验证 XPU 上融合 pass 的正确性和性能。
原始 PR · 作者 cleonard530 · 合并时间 2026-06-02 23:09
迁移 stable 头文件至 libtorch_stable 目录
该 PR 是 torch stable ABI 迁移的必要清理步骤,虽无功能变化,但体现了如何通过目录结构和编译配置强制 ABI 稳定性的设计思路。建议关注 #43717 及相关讨论,了解完整迁移背景。对于从事内核开发的工程师,值得精读以掌握项目中稳定与不稳定代码的划分实践。
原始 PR · 作者 pschlan-amd · 合并时间 2026-06-02 22:50
修复 Kimi-Linear 模型 AITER 融合崩溃
建议合并。修复是精确且低风险的,已通过 e2e 验证。未来可考虑在类似属性访问模式中统一使用 `getattr` 回退或定义接口契约。
原始 PR · 作者 cleonard530 · 合并时间 2026-05-29 12:44
迁移注意力与缓存内核至 torch stable ABI
此 PR 是持续 ABI 迁移的重要一环,值得核心开发者精读。重点关注 `concat_mla_q` 调度类型迁移的修复过程、头文件移动策略的讨论、以及 `quant_utils.cuh` 部分稳定性的权衡。这些模式将指导后续阶段。 普通审阅者应关注构建是否正确、测试是否覆盖以避免回归。 建议团队在后续 PR 中尽快完成 `quant_utils.cuh` 的完全迁移,并考虑为缓存操作添加更多单元测试。
修复 Qwen3-VL/Omni 在 torch.compile 下的精度退化
该 PR 值得精读,因为它揭示了一个常见的 torch.compile 陷阱:profile 阶段与 serving 阶段的输入结构不一致会导致编译图特化错误。设计上通过固定返回 tensor 而非 None 来保持图结构稳定的模式值得借鉴。合并前建议考虑的 device/dtype 问题可在后续 PR 中加固。
原始 PR · 作者 cleonard530 · 合并时间 2026-05-28 00:35
迁移 attention/mamba/sampler 内核到 torch stable ABI
建议精读 `csrc/libtorch_stable/torch_bindings.cpp` 和 `csrc/libtorch_stable/ops.h`,了解稳定 ABI 的注册和声明模式。对于需要迁移自定义内核的开发者,本 PR 提供了清晰的参考模板。同时关注常量正确性讨论,这在跨 ABI 时尤其重要。
避免 ROCm 编译时重复 bf16 转换
该 PR 改动小巧、聚焦,验证充分(性能、精度、FX dump),建议合并。值得注意的设计决策:通过额外 buffer 而非修改全局 dtype 来避免精度影响,以及将条件守卫精确限定在编译时快路径。
修复 PyTorch 2.12 下 AOT 编译测试失败
此 PR 是适配 PyTorch 2.12 的必要修复,变更简单直接,值得合并。建议后续统一检查其他使用 `VLLM_USE_MEGA_AOT_ARTIFACT` 的测试点,确保 torch 版本升级后的兼容性。