Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

后台正在同步并分析最近 PR，页面会自动刷新并逐步显示最新结果。

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-29

#26669 test: add trtllm_mha EAGLE-draft CG runner coverage (chain)

原始 PR · 作者 ch-wan · 合并时间 2026-05-29 14:46

测试重要性 4.58 洞察度 5.00

为 TRTLLM MHA 添加 EAGLE-draft CG 测试覆盖

本次 PR 值得关注其测试方法论：如何通过注入历史 bug 来验证新测试的有效性。建议未来类似修复（尤其涉及 CG capture/replay 路径）都配套此类测试，并利用 bug 注入确保测试能真正捕获回归。

testspeculative-decodingattention

#26668 [Doc] Update benchmark instruction for dsv4

原始 PR · 作者 Fridge003 · 合并时间 2026-05-29 14:37

文档重要性 3.84 洞察度 2.00

更新 DeepSeek-V4 基准测试文档

该 PR 为纯粹的文档维护，无代码逻辑变更，对于关注 DeepSeek-V4 评估流程的读者有参考价值。开发团队可将其作为文档更新流程的示例，但无需深入 code review。

documentationdeepseekbenchmark

#25083 fix(mooncake): honour MOONCAKE_PROTOCOL so EFA hardware can select efa transport

原始 PR · 作者 whn09 · 合并时间 2026-05-29 14:21

缺陷修复重要性 6.47 洞察度 5.00

Mooncake传输引擎支持环境变量选择EFA协议

建议精读本PR的代码改动，重点关注"如何通过单一环境变量统一两个调用点的协议配置"以及"重构后分支合并的代码组织"。对于部署在AWS EFA的用户，该PR是必合的。

bugfixkv-cacheinfra

#25959 Ensure multi-node MM embedding cache consistency in insert_batch

原始 PR · 作者 QiuMike · 合并时间 2026-05-29 13:59

缺陷修复重要性 6.37 洞察度 5.00

确保多节点MM嵌入缓存一致性

该PR改动较小但重要，值得合入。建议后续考虑增加测试覆盖多节点场景下的缓存一致性。

bugfixkv-cacheinfra

#26658 test: strengthen CG-replay coverage with prod-fill padding, metadata invariants, and pad-ratio sweep

原始 PR · 作者 ch-wan · 合并时间 2026-05-29 13:43

测试重要性 6.97 洞察度 5.00

强化CG-replay测试：生产填充、元数据不变式、多比例扫描

值得精读。本PR展示了如何通过分析测试/生产环境差异来设计有针对性的测试覆盖。`assert_cg_metadata_well_formed`的设计原则（best-effort、静默跳过、单语句检查）和`pad_style`抽象值得在其他测试套件中复用。

testspeculative-decodingattention

#26415 [Fix] Fix FP8 Online Quantization

原始 PR · 作者 ColinZ22 · 合并时间 2026-05-29 13:00

缺陷修复重要性 5.47 洞察度 5.00

修复在线量化路径中使用空配置导致失败的问题

值得精读，尤其关注 `transformer_load_utils.py` 中 `_resolve_quant_config` 的逻辑分支，以及无参构造函数作为约定（约定优于配置）的应用。

diffusionbugfixquant

#26521 fix: copy seq_lens in TRTLLM MHA draft decode cuda graph capture

原始 PR · 作者 libertyeagle · 合并时间 2026-05-29 12:55

缺陷修复重要性 5.15 洞察度 4.00

修复 TRTLLM MHA draft decode CUDA graph 捕获时 cache_seqlens 未拷贝

建议精读 PR 的 diff 和 PR body，理解 CUDA graph 捕获时 draft decode 分支的 metadata 初始化逻辑。这是一个典型的捕获路径与 replay 路径不一致导致的 bug，值得学习。

bugfixattentionblackwell

#24133 [NPU]: Optimize xgrammar token bitmask on NPU with AscendC

原始 PR · 作者 ChefWu551 · 合并时间 2026-05-29 12:38

性能优化重要性 5.87 洞察度 5.00

用 AscendC 算子替换 NPU xgrammar bitmask CPU fallback

该 PR 性能提升明确，改动清晰，建议合并。后续可考虑针对 `sgl_kernel_npu` 导入添加 try-except 并以日志告警替代崩溃，增强运行时鲁棒性。同时推荐为 NPU 分支添加单元测试，验证算子 in-place 语义。

npuperformanceinfra

第 50 / 357 页 · 共 2850 条

上一页 1 … 48 49 50 51 52 … 357 下一页