避免 FlashAttention 中全局 forward context 查找
值得合并。这是一个小而精巧的优化:既消除了不必要的全局查找,又修复了潜在的元数据覆盖 bug。代码审查中的建议已被采纳,逻辑正确。推荐阅读以了解如何安全移除全局依赖。
SGLang is a high-performance serving framework for large language models and multimodal models.
避免 FlashAttention 中全局 forward context 查找
值得合并。这是一个小而精巧的优化:既消除了不必要的全局查找,又修复了潜在的元数据覆盖 bug。代码审查中的建议已被采纳,逻辑正确。推荐阅读以了解如何安全移除全局依赖。
修复 DeepSeek-R1 TP2 时 nhead=64 MLA decode 崩溃并添加夜间测试
值得精读。PR 展示了处理多 GPU 内核选择时的边界情况(head count 门控),并提供了完整的回归测试设计。建议关注 persistent 模式与非 persistent 模式的切换条件,以及如何通过 CI 配置覆盖不同 TP 场景。
统一 full→SWA 翻译并移除池缓存
建议精读。该 PR 展示了一次精心设计的状态管理重构:将原本散布的多处缓存和失效逻辑统一到一个单一的、在已知时机计算的点上。其中的设计决策(在 graph init 中记录而非在 connect 回调中处理)以及 fallback 机制的实现值得学习。同时,关于 draft-extend 路径的修复过程显示了在 CUDA graph 环境中保持正确性的典型挑战。
原始 PR · 作者 AgainstEntropy · 合并时间 2026-06-04 05:55
更新 Nemotron3 模型路径与文档
建议精读以确认模型路径变更无拼写错误,并验证生成的示例命令是否正常工作。
回退 top_logprobs 张量值修复,回归旧 bug
**不建议直接合入**:除非有明确理由(如原修复引入了更严重的 bug),否则应暂缓。建议在 revert 后立即跟进新的修复方案,并恢复测试覆盖。若确需 revert,应在 PR 描述中详细说明原因。
修复 Nemotron3 Super MTP 部署命令生成逻辑
建议阅读以了解 spec-v2 与 radix cache、attention backend 的兼容性约束,以及如何在文档代码片段中通过 `commandRule` 函数的 `state` 参数实现硬件感知的命令生成。
原始 PR · 作者 ishandhanani · 合并时间 2026-06-04 05:52
修复HiCache节点分裂时write-through事件丢失
建议相关人员精读实现,特别是_replace_pending_write_through_node中列表替换的逻辑和_finish_write_through_ack中对storage的持久化方式。设计上通过publish_nodes列表而非直接修改ack回调,是一种简洁的解耦方案。
融合 AMD DSV4 压缩后处理 Norm+RoPE+Hadamard 为单个 Triton 内核
建议精读,尤其是 Triton 内核融合技巧以及使用 `debug_barrier` 同步 warp 的处理方式,可作为 AMD 平台上内核优化的参考范例。
参与讨论