执行摘要
实现 JIT 激活内核,优化 CUDA 平台 SiLU/GELU 性能并更新技能文档。
动机是优化激活操作在推理时的速度,通过 JIT 编译实现运行时内核生成,利用 PDL 和向量化技术提升 GPU 利用率。PR body 中虽然未填写详细动机文本,但从性能测试图和标题推断,目的是减少延迟、提高吞吐量,并统一内核实现。
建议技术管理者和内核开发者精读此 PR,重点关注 JIT 内核的设计模式(如 PDL 使用、向量化优化)、从 AOT 到 JIT 的迁移策略,以及 review 中提出的兼容性和形状问题。对于工程师,此 PR 提供了高性能内核开发的参考实例,值得学习。
review 中 highlight 了两个核心讨论:
- HIP 平台导入缺失:gemini-code-assist[bot] 指出
multimodal_gen/runtime/layers/activation.py中 HIP 平台仅导入了silu_and_mul,缺少gelu_and_mul和gelu_tanh_and_mul,可能导致 AMD GPU 运行时错误。BBuf 询问是否应用建议,但未明确结论。 - 输出形状注册错误:gemini-code-assist[bot] 指出
register_custom_op中的out_shape="input"不正确,因为激活操作输出形状是输入的一半,可能影响形状推断或自动输出分配。
讨论未解决这些疑虑,状态标记为未解决。
参与讨论