Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-06-04
基础设施 重要性 7.64 洞察度 6.00

为NPU扩散测试增加GT生成并重构套件

值得仔细阅读,特别是`run_suite.py`中的条件导入模式和`compute_diffusion_partitions.py`的环境变量切换,这是多平台测试框架的设计模板。同时关注后续的路径优化和URL迁移,避免遗留硬编码风险。

缺陷修复 重要性 6.33 洞察度 6.00

修复混合注意力层调度,替代临时标记方案

此 PR 属于“有意义的改进”(bugfix + 清理临时方案),值得精读。重点关注 `_is_full_attn` 的简化过程和草稿 worker 的特例处理。建议后续为混合注意力调度添加专用测试用例,覆盖草稿 worker 和非草稿场景。

缺陷修复 重要性 4.38 洞察度 5.00

禁用在 MI35x TP=8 上导致 crash 的 AITER all-gather

值得关注的是 PR 中对根因的详细分析(AITER CUDA-graph 缓冲区注册偏移问题),这对理解多 GPU 通信与 CUDA-graph 交互有帮助。生产环境下建议跟踪 AITER 的修复,及时恢复自定义 all-gather 以保持性能。

功能 重要性 9.01 洞察度 7.00

AMD MI350X 在线 MXFP4 量化,支持 Dense 和 MOE

值得精读。该 PR 展示了如何通过包装 weight_loader 实现在线量化,从而避免预量化模型的加载开销。设计模式(使用 `is_checkpoint_mxfp4_serialized` 控制流统一代码路径)值得借鉴。讨论中关于准确性降级和 weight loader 优化的权衡也很有教育意义。

#27118 [Mamba] extra buffer lazy support

原始 PR · 作者 hanming-lu · 合并时间 2026-06-04 03:42

功能 重要性 9.00 洞察度 6.00

新增 Mamba 延迟额外缓冲策略,减少内存占用

值得精读,特别是理解 Mamba 调度器的状态管理设计。关注 `_handle_finish_state_updated_req` 的重构、`mamba_lazy_prealloc_at_boundary` 的边界处理和 `release_kv_cache` 的 `is_insert` 参数传递,这些是模式复用和抽象的关键。

功能 重要性 8.31 洞察度 7.00

Spec v2 多路径草稿重上线 (Eagle topk>1),要求 page_size==1

建议 SGLang 推测解码模块的维护者和使用者仔细阅读此 PR。重点关注 `_finalize_accepted_tree_path` 的压实策略、`move_kv_cache` 在 MLA 和 DSA 池中的分层实现,以及空闲批次注意力元数据的兼容性处理。这些设计决策展示了 SGLang 在支持复杂草稿拓扑时的架构思考。

参与讨论