Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-04

#27153 [diffusion] Avoid FlashAttention forward context lookup

原始 PR · 作者 mickqian · 合并时间 2026-06-04 08:11

重构重要性 5.60 洞察度 5.00

避免 FlashAttention 中全局 forward context 查找

值得合并。这是一个小而精巧的优化：既消除了不必要的全局查找，又修复了潜在的元数据覆盖 bug。代码审查中的建议已被采纳，逻辑正确。推荐阅读以了解如何安全移除全局依赖。

diffusionrefactorattention

#27188 [AMD] Fix TP2 DeepSeek-R1 nhead=64 MLA decode crash and add nightly coverage

原始 PR · 作者 clintg6 · 合并时间 2026-06-04 07:56

缺陷修复重要性 8.08 洞察度 5.00

修复 DeepSeek-R1 TP2 时 nhead=64 MLA decode 崩溃并添加夜间测试

值得精读。PR 展示了处理多 GPU 内核选择时的边界情况（head count 门控），并提供了完整的回归测试设计。建议关注 persistent 模式与非 persistent 模式的切换条件，以及如何通过 CI 配置覆盖不同 TP 场景。

amdbugfixdeepseek

#27091 Unify full→SWA index translation in init_forward_metadata; drop pool caches

原始 PR · 作者 ch-wan · 合并时间 2026-06-04 07:12

重构重要性 9.07 洞察度 6.00

统一 full→SWA 翻译并移除池缓存

建议精读。该 PR 展示了一次精心设计的状态管理重构：将原本散布的多处缓存和失效逻辑统一到一个单一的、在已知时机计算的点上。其中的设计决策（在 graph init 中记录而非在 connect 回调中处理）以及 fallback 机制的实现值得学习。同时，关于 draft-extend 路径的修复过程显示了在 CUDA graph 环境中保持正确性的典型挑战。

deepseekrefactorattention

#25198 [Docs] Update Nemotron3-Nano-Omni cookbook to reflect new model paths

原始 PR · 作者 AgainstEntropy · 合并时间 2026-06-04 05:55

文档重要性 4.63 洞察度 2.00

更新 Nemotron3 模型路径与文档

建议精读以确认模型路径变更无拼写错误，并验证生成的示例命令是否正常工作。

documentation

#27187 Revert "Fix TokenizerManager crash on top_logprobs with tensor values"

原始 PR · 作者 ch-wan · 合并时间 2026-06-04 05:53

缺陷修复重要性 6.96 洞察度 2.00

回退 top_logprobs 张量值修复，回归旧 bug

**不建议直接合入**：除非有明确理由（如原修复引入了更严重的 bug），否则应暂缓。建议在 revert 后立即跟进新的修复方案，并恢复测试覆盖。若确需 revert，应在 PR 描述中详细说明原因。

bugfixkv-cachedisaggregation

#27184 docs: fix Nemotron Super MTP deployment command (spec-v2 + B200)

原始 PR · 作者 guapisolo · 合并时间 2026-06-04 05:52

文档重要性 5.02 洞察度 5.00

修复 Nemotron3 Super MTP 部署命令生成逻辑

建议阅读以了解 spec-v2 与 radix cache、attention backend 的兼容性约束，以及如何在文档代码片段中通过 `commandRule` 函数的 `state` 参数实现硬件感知的命令生成。

documentationspeculative-decodingbugfix

#27072 hicache: publish split write-through fragments

原始 PR · 作者 ishandhanani · 合并时间 2026-06-04 05:52

缺陷修复重要性 8.51 洞察度 6.00

修复HiCache节点分裂时write-through事件丢失

建议相关人员精读实现，特别是_replace_pending_write_through_node中列表替换的逻辑和_finish_write_through_ack中对storage的持久化方式。设计上通过publish_nodes列表而非直接修改ack回调，是一种简洁的解耦方案。

hicachebugfixkv-cache

#26894 [AMD] Fuse compress norm+rope+hadamard into single Triton kernel

原始 PR · 作者 yichiche · 合并时间 2026-06-04 05:20

性能优化重要性 7.52 洞察度 6.00

融合 AMD DSV4 压缩后处理 Norm+RoPE+Hadamard 为单个 Triton 内核

建议精读，尤其是 Triton 内核融合技巧以及使用 `debug_barrier` 同步 warp 的处理方式，可作为 AMD 平台上内核优化的参考范例。

amdperformancejit-kernel

第 19 / 357 页 · 共 2850 条

上一页 1 … 17 18 19 20 21 … 357 下一页