Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-03

#26911 [Bugfix] Gate DP-attention even-token padding to CP-enabled configs

原始 PR · 作者 Jiminator · 合并时间 2026-06-03 14:06

缺陷修复重要性 6.73 洞察度 6.00

修复 DP-attention 偶数 token 填充导致 NaN 崩溃

值得精读。这是一个典型的高影响力小修复案例：通过集中化逻辑和条件化对齐，解决了由之前 PR 引入的回归问题。设计决策（仅对 zigzag 模式应用 2x 对齐）体现了对 CP 内部机制的理解。建议工程师关注： - 如何通过提取函数避免两个调用点的重复逻辑和潜在不一致性。 - Review 中的设计讨论如何推动了更简洁的实现。 - FIXME 注释标记了一个潜在的未来改进方向（让 draft prefill-extend 容忍填充的虚拟 token）。

bugfixspeculative-decodingkv-cache

#25556 [AMD] Fix correctness for AITER MLA backend with `--page-size > 1`

原始 PR · 作者 Duyi-Wang · 合并时间 2026-06-03 14:01

缺陷修复重要性 5.42 洞察度 7.00

修复 AITER MLA 后端 page_size>1 时的正确性

值得精读。该 PR 展示了如何通过精确理解数据流（allocator -> metadata -> kernel）来修复仅修改元数据就能解决看似复杂的分页问题。PR 描述中关于数据流链的分析具有较高学习价值。

amdbugfixkv-cache

#27101 [Gemma4] Use hard GSM8K accuracy floor for 31B MTP test

原始 PR · 作者 kpham-sgl · 合并时间 2026-06-03 13:57

测试重要性 3.86 洞察度 3.00

修复 Gemma4 31B MTP 测试的 GSM8K 阈值

无需精读。该 PR 是 CI 测试的小幅稳定性改进。值得注意的设计决策是基于 40 次实际运行校准阈值，而非使用占位符值——这是测试可靠性工程的最佳实践。

testbugfixspeculative-decoding

#25655 Feat/add w4a16 moe support to nemotron

原始 PR · 作者 shaunkotek · 合并时间 2026-06-03 13:42

功能重要性 9.13 洞察度 6.00

支持 Nemotron 模型 NVFP4 权重通过 Marlin W4A16 在 SM80-SM90 上推理

建议精读：该 PR 展示了如何将专有量化格式（NVFP4 ModelOpt）映射到已有 Marlin 内核，包含 scale 转换、非门控 MoE 扩展、多后端路由等设计决策，对于理解 SGLang 的量化抽象层和 MoE 支持有参考价值。关注点：scale 转换的数值正确性、非门控 MoE 的激活函数处理、全局 scale 指数偏移的数学推导。

quantfeaturemoe

#26145 [CPU] Explicitly enable AVX512 & AMX instruction set

原始 PR · 作者 ZailiWang · 合并时间 2026-06-03 13:40

性能优化重要性 3.76 洞察度 3.00

显式启用 x86_64 的 AVX512/AMX 指令集

该 PR 值得阅读，它展示了在构建系统中如何处理指令集兼容性。对于维护者，需要确认发布二进制是否包含这些指令集，以及对旧硬件的策略；对于使用 CPU 后端的用户，建议验证目标 CPU 的指令集支持。

cpuintelperformance

#26349 Support specific pass of bias_grouped_topk for xpu

原始 PR · 作者 gaopengff · 合并时间 2026-06-03 13:13

功能重要性 6.93 洞察度 4.00

XPU 端为 MoE 门控添加 bias group topk 快速路径

该 PR 功能明确，讨论均已解决，测试已补充，建议合并。值得关注的设计决策是 `num_experts` 上限 256 的设定和 scaling 处理与 CUDA 分支的对称性。

xpumoeperformance

#24984 [HiCache] feat: support draft offload for mooncake

原始 PR · 作者 alphabetc1 · 合并时间 2026-06-03 12:42

功能重要性 9.16 洞察度 6.00

为 Mooncake 等后端添加 draft KV 卸载支持

该 PR 实现了关键的 draft KV 卸载功能，设计较稳健，建议精读 cache_controller.py 中的 _maybe_register_draft_with_storage 和 _draft_page_set_v2 函数以理解零拷贝集成模式。测试重构思路也值得参考。

hicachefeaturespeculative-decoding

#27011 [Bugfix] Clean up failed NIXL sender state

原始 PR · 作者 Ronnie-Rui · 合并时间 2026-06-03 12:15

缺陷修复重要性 6.62 洞察度 4.00

修复NIXL发送器失败后房间状态未清理

该PR值得合并，修复了明确的状态泄漏bug。建议后续考虑对staging_ctx加锁或明确其线程安全模型。

bugfixkv-cacheinfra

第 24 / 357 页 · 共 2850 条

上一页 1 … 22 23 24 25 26 … 357 下一页