优化 Gemma4 H200 MoE 与 extend attention 性能
推荐精读。尤其注意 kernel dedup 设计方法和 BF16 精度分析。对于 Gemma4 部署有直接收益;对编写数值稳定的 Triton kernel 有参考价值。
标签列表
聚合结果
优化 Gemma4 H200 MoE 与 extend attention 性能
推荐精读。尤其注意 kernel dedup 设计方法和 BF16 精度分析。对于 Gemma4 部署有直接收益;对编写数值稳定的 Triton kernel 有参考价值。
新增 ngram decode 专用快速更新 kernel
值得精读,展示如何通过简化 kernel 假设实现数十倍性能提升。尤其关注 review 中对 int64 溢出的讨论——这是一个在长上下文场景中容易被忽略的缺陷。
Nemotron 模型推理性能显著提升
值得精读,尤其是 scaling factor 融合与 BF16 路由 GEMM 的设计模式,以及 JIT 激活算子如何统一派发。对于涉及 MoE 量化的团队,可借鉴其条件路由缩放的处理方式。
原始 PR · 作者 RolaoDenthu · 合并时间 2026-06-06 09:26
修复 AMD 上 DSV4 FP4 indexer 的属性错误和 warp mask 编译错误
值得快速查阅,尤其是关注跨平台 warp shuffle 兼容性处理模式。代码改动量小(+8/-2),逻辑清晰,适合作为 AMD 特殊修复的参考范例。
融合 QK-norm 与 RoPE,Cosmos3 推理加速 4 倍
此 PR 值得精读,尤其推荐给以下读者: - 关注文生视频模型推理性能优化 - 想了解如何将特定模型组件(如 Qwen3 half-split RoPE)映射到通用融合 kernel - 需要学习 GQA 场景下 partial rope 的 triton 实现模式 - 研究 DiT 架构注意力层加速的工程师
实验性快速 LoRA 路径:融合 TRT-LLM MoE + 双流重叠,FP8/NVFP4 吞吐提升 1.7x
该 PR 技术含量高,**值得精读**。核心设计(融合 MoE + LoRA 双流重叠、Split-K 融合、JIT 内核生成)为高性能 LoRA 推理提供了范本。Review 过程严格保障默认路径安全,是实验性功能落地的最佳实践。建议团队在后续重构中关注:1) 将 `*_temp` 包合并到正式模块;2) 补充单元测试和 CI 集成;3) 扩展支持更多模型和硬件。
修复 CUDA 13 下 activation.cuh JIT 编译失败
值得立即合入,特别是需要支持 CUDA 13 的用户。关注点:建议在 CI 中增加 CUDA 13 的 JIT 编译测试,防止类似问题再次发生。该 PR 展示了处理编译器版本差异模板问题的通用技巧。
原始 PR · 作者 huangtingwei9988 · 合并时间 2026-06-05 15:39
支持 DeepSeek V4 HiSparse 直接 PD 主机传输,TTFT 降 7-9%
此 PR 涉及推理引擎内核、内存池、JIT 编译和远程传输多个模块的联动修改,建议所有参与 SGLang 推理引擎开发的同学精读。尤其是 `DeepSeekV4PagedHostPool` 的布局设计、`transfer_cache_dsv4_mla` 的 JIT 实现、以及 Mooncake 传输的 PP 对齐策略,具有较高的参考价值。