Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

attention 相关 PR

2026-06-07
2026-06-06
缺陷修复 重要性 6.26 洞察度 6.00

修复 fa3 EAGLE draft-decode page_table scatter OOB

值得合并与精读。本 PR 修复了一个隐蔽的静默内存损坏 bug,展示了 cuda-graph 元数据构造中一个微妙的维度不匹配问题。建议关注:1) `cache_loc` 切片与 `page_size == 1` 分支的对齐设计;2) 始终启用断言作为安全网的做法;3) revert 开关的注册方式,这是一种低成本 A/B 调试基础设施。

#26588 Optimize Gemma4 H200 MoE and extend attention

原始 PR · 作者 BBuf · 合并时间 2026-06-06 14:14

性能优化 重要性 7.16 洞察度 7.00

优化 Gemma4 H200 MoE 与 extend attention 性能

推荐精读。尤其注意 kernel dedup 设计方法和 BF16 精度分析。对于 Gemma4 部署有直接收益;对编写数值稳定的 Triton kernel 有参考价值。

#26733 Nemotron perf changes

原始 PR · 作者 b8zhong · 合并时间 2026-06-06 13:31

性能优化 重要性 8.30 洞察度 7.00

Nemotron 模型推理性能显著提升

值得精读,尤其是 scaling factor 融合与 BF16 路由 GEMM 的设计模式,以及 JIT 激活算子如何统一派发。对于涉及 MoE 量化的团队,可借鉴其条件路由缩放的处理方式。

缺陷修复 重要性 7.18 洞察度 6.00

修复 DSA 配置覆盖问题并支持 index_skip_topk_offset

本 PR 值得精读,特别是对 DSA 注意力机制、推测解码顶层索引管理、以及大规模模型服务配置兼容性感兴趣的开发者。关键设计决策包括:如何安全地跨 MTP 步骤重用 topk 索引、skip_topk 门控的精确语义、以及 TBO 与索引共享的不兼容性处理。建议在部署启用 index_topk_sharing 的模型时关注此变更。

性能优化 重要性 6.75 洞察度 6.00

优化 LingBot 实时 SP 缓存路径与 USP 通信

值得精读。该 PR 展示了如何通过细粒度的缓存复用和通信路径选择来优化实时推理管线的关键瓶颈,设计决策清晰,性能收益量化充分。建议关注 GPT reviewer 提出的进一步优化建议。

#27096 [diffusion] Cosmos3 fused qknorm rope

原始 PR · 作者 qimcis · 合并时间 2026-06-06 09:15

性能优化 重要性 8.76 洞察度 6.00

融合 QK-norm 与 RoPE,Cosmos3 推理加速 4 倍

此 PR 值得精读,尤其推荐给以下读者: - 关注文生视频模型推理性能优化 - 想了解如何将特定模型组件(如 Qwen3 half-split RoPE)映射到通用融合 kernel - 需要学习 GQA 场景下 partial rope 的 triton 实现模式 - 研究 DiT 架构注意力层加速的工程师