#24630 [NPU] Diffusion CI Ground Truth Generation (NPU)
原始 PR · 作者 e-martirosian · 合并时间 2026-06-04 05:14
为NPU扩散测试增加GT生成并重构套件
值得仔细阅读,特别是`run_suite.py`中的条件导入模式和`compute_diffusion_partitions.py`的环境变量切换,这是多平台测试框架的设计模板。同时关注后续的路径优化和URL迁移,避免遗留硬编码风险。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 e-martirosian · 合并时间 2026-06-04 05:14
为NPU扩散测试增加GT生成并重构套件
值得仔细阅读,特别是`run_suite.py`中的条件导入模式和`compute_diffusion_partitions.py`的环境变量切换,这是多平台测试框架的设计模板。同时关注后续的路径优化和URL迁移,避免遗留硬编码风险。
修复混合注意力层调度,替代临时标记方案
此 PR 属于“有意义的改进”(bugfix + 清理临时方案),值得精读。重点关注 `_is_full_attn` 的简化过程和草稿 worker 的特例处理。建议后续为混合注意力调度添加专用测试用例,覆盖草稿 worker 和非草稿场景。
原始 PR · 作者 kflansburg · 合并时间 2026-06-04 04:55
修复 top_logprobs 张量值导致预填充进程被 SIGKILL
不建议精读此 PR,因为它已被主维护者否认为错误修复,并且已被回退。正确的修复应参考 #27085 或 #26299。
原始 PR · 作者 yctseng0211 · 合并时间 2026-06-04 04:38
禁用在 MI35x TP=8 上导致 crash 的 AITER all-gather
值得关注的是 PR 中对根因的详细分析(AITER CUDA-graph 缓冲区注册偏移问题),这对理解多 GPU 通信与 CUDA-graph 交互有帮助。生产环境下建议跟踪 AITER 的修复,及时恢复自定义 all-gather 以保持性能。
原始 PR · 作者 fxmarty-amd · 合并时间 2026-06-04 03:55
AMD MI350X 在线 MXFP4 量化,支持 Dense 和 MOE
值得精读。该 PR 展示了如何通过包装 weight_loader 实现在线量化,从而避免预量化模型的加载开销。设计模式(使用 `is_checkpoint_mxfp4_serialized` 控制流统一代码路径)值得借鉴。讨论中关于准确性降级和 weight loader 优化的权衡也很有教育意义。
原始 PR · 作者 hanming-lu · 合并时间 2026-06-04 03:42
新增 Mamba 延迟额外缓冲策略,减少内存占用
值得精读,特别是理解 Mamba 调度器的状态管理设计。关注 `_handle_finish_state_updated_req` 的重构、`mamba_lazy_prealloc_at_boundary` 的边界处理和 `release_kv_cache` 的 `is_insert` 参数传递,这些是模式复用和抽象的关键。
Spec v2 多路径草稿重上线 (Eagle topk>1),要求 page_size==1
建议 SGLang 推测解码模块的维护者和使用者仔细阅读此 PR。重点关注 `_finalize_accepted_tree_path` 的压实策略、`move_kv_cache` 在 MLA 和 DSA 池中的分层实现,以及空闲批次注意力元数据的兼容性处理。这些设计决策展示了 SGLang 在支持复杂草稿拓扑时的架构思考。
升级 FlashInfer 到 0.6.12,CUTLASS DSL 到 4.5.2
建议合入,但需确认 CI 中无关失败不会影响后续主线。
参与讨论