Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-06-04

#24630 [NPU] Diffusion CI Ground Truth Generation (NPU)

原始 PR · 作者 e-martirosian · 合并时间 2026-06-04 05:14

基础设施重要性 7.64 洞察度 6.00

为NPU扩散测试增加GT生成并重构套件

值得仔细阅读，特别是`run_suite.py`中的条件导入模式和`compute_diffusion_partitions.py`的环境变量切换，这是多平台测试框架的设计模板。同时关注后续的路径优化和URL迁移，避免遗留硬编码风险。

npudiffusiontest

#27120 Fix hybrid linear attention dispatch by layer id with draft-worker awareness

原始 PR · 作者 ch-wan · 合并时间 2026-06-04 05:11

缺陷修复重要性 6.33 洞察度 6.00

修复混合注意力层调度，替代临时标记方案

此 PR 属于“有意义的改进”（bugfix + 清理临时方案），值得精读。重点关注 `_is_full_attn` 的简化过程和草稿 worker 的特例处理。建议后续为混合注意力调度添加专用测试用例，覆盖草稿 worker 和非草稿场景。

bugfixattentionrefactor

#26825 Fix TokenizerManager crash on top_logprobs with tensor values

原始 PR · 作者 kflansburg · 合并时间 2026-06-04 04:55

缺陷修复重要性 6.32 洞察度 3.00

修复 top_logprobs 张量值导致预填充进程被 SIGKILL

不建议精读此 PR，因为它已被主维护者否认为错误修复，并且已被回退。正确的修复应参考 #27085 或 #26299。

bugfixtestkv-cache

#27163 [AMD] Disable AITER custom all-gather in DeepSeek-R1-MXFP4 8-GPU test

原始 PR · 作者 yctseng0211 · 合并时间 2026-06-04 04:38

缺陷修复重要性 4.38 洞察度 5.00

禁用在 MI35x TP=8 上导致 crash 的 AITER all-gather

值得关注的是 PR 中对根因的详细分析（AITER CUDA-graph 缓冲区注册偏移问题），这对理解多 GPU 通信与 CUDA-graph 交互有帮助。生产环境下建议跟踪 AITER 的修复，及时恢复自定义 all-gather 以保持性能。

bugfixamddeepseek

#18005 [AMD][MXFP4] Online MXFP4 quantization 1/N - dense and MOE models w. original BF16 weight

原始 PR · 作者 fxmarty-amd · 合并时间 2026-06-04 03:55

功能重要性 9.01 洞察度 7.00

AMD MI350X 在线 MXFP4 量化，支持 Dense 和 MOE

值得精读。该 PR 展示了如何通过包装 weight_loader 实现在线量化，从而避免预量化模型的加载开销。设计模式（使用 `is_checkpoint_mxfp4_serialized` 控制流统一代码路径）值得借鉴。讨论中关于准确性降级和 weight loader 优化的权衡也很有教育意义。

amdquantfeature

#27118 [Mamba] extra buffer lazy support

原始 PR · 作者 hanming-lu · 合并时间 2026-06-04 03:42

功能重要性 9.00 洞察度 6.00

新增 Mamba 延迟额外缓冲策略，减少内存占用

值得精读，特别是理解 Mamba 调度器的状态管理设计。关注 `_handle_finish_state_updated_req` 的重构、`mamba_lazy_prealloc_at_boundary` 的边界处理和 `release_kv_cache` 的 `is_insert` 参数传递，这些是模式复用和抽象的关键。

schedulingperformancefeature

#26997 Reland spec v2 tree drafting (eagle topk>1) with page_size==1 (#26866)

原始 PR · 作者 hnyls2002 · 合并时间 2026-06-04 03:40

功能重要性 8.31 洞察度 7.00

Spec v2 多路径草稿重上线 (Eagle topk>1)，要求 page_size==1

建议 SGLang 推测解码模块的维护者和使用者仔细阅读此 PR。重点关注 `_finalize_accepted_tree_path` 的压实策略、`move_kv_cache` 在 MLA 和 DSA 池中的分层实现，以及空闲批次注意力元数据的兼容性处理。这些设计决策展示了 SGLang 在支持复杂草稿拓扑时的架构思考。

speculative-decodingkv-cacheperformance

#26854 [Deps] Bump FI to 0.6.12 and cutedsl to 4.5.2

原始 PR · 作者 mmangkad · 合并时间 2026-06-04 03:09

基础设施重要性 4.94 洞察度 2.00

升级 FlashInfer 到 0.6.12，CUTLASS DSL 到 4.5.2

建议合入，但需确认 CI 中无关失败不会影响后续主线。

dependenciesinfradocker

第 20 / 357 页 · 共 2850 条

上一页 1 … 18 19 20 21 22 … 357 下一页