Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-06-04
重构 重要性 5.60 洞察度 5.00

避免 FlashAttention 中全局 forward context 查找

值得合并。这是一个小而精巧的优化:既消除了不必要的全局查找,又修复了潜在的元数据覆盖 bug。代码审查中的建议已被采纳,逻辑正确。推荐阅读以了解如何安全移除全局依赖。

缺陷修复 重要性 8.08 洞察度 5.00

修复 DeepSeek-R1 TP2 时 nhead=64 MLA decode 崩溃并添加夜间测试

值得精读。PR 展示了处理多 GPU 内核选择时的边界情况(head count 门控),并提供了完整的回归测试设计。建议关注 persistent 模式与非 persistent 模式的切换条件,以及如何通过 CI 配置覆盖不同 TP 场景。

重构 重要性 9.07 洞察度 6.00

统一 full→SWA 翻译并移除池缓存

建议精读。该 PR 展示了一次精心设计的状态管理重构:将原本散布的多处缓存和失效逻辑统一到一个单一的、在已知时机计算的点上。其中的设计决策(在 graph init 中记录而非在 connect 回调中处理)以及 fallback 机制的实现值得学习。同时,关于 draft-extend 路径的修复过程显示了在 CUDA graph 环境中保持正确性的典型挑战。

缺陷修复 重要性 6.96 洞察度 2.00

回退 top_logprobs 张量值修复,回归旧 bug

**不建议直接合入**:除非有明确理由(如原修复引入了更严重的 bug),否则应暂缓。建议在 revert 后立即跟进新的修复方案,并恢复测试覆盖。若确需 revert,应在 PR 描述中详细说明原因。

文档 重要性 5.02 洞察度 5.00

修复 Nemotron3 Super MTP 部署命令生成逻辑

建议阅读以了解 spec-v2 与 radix cache、attention backend 的兼容性约束,以及如何在文档代码片段中通过 `commandRule` 函数的 `state` 参数实现硬件感知的命令生成。

缺陷修复 重要性 8.51 洞察度 6.00

修复HiCache节点分裂时write-through事件丢失

建议相关人员精读实现,特别是_replace_pending_write_through_node中列表替换的逻辑和_finish_write_through_ack中对storage的持久化方式。设计上通过publish_nodes列表而非直接修改ack回调,是一种简洁的解耦方案。

性能优化 重要性 7.52 洞察度 6.00

融合 AMD DSV4 压缩后处理 Norm+RoPE+Hadamard 为单个 Triton 内核

建议精读,尤其是 Triton 内核融合技巧以及使用 `debug_barrier` 同步 warp 的处理方式,可作为 AMD 平台上内核优化的参考范例。

参与讨论