Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-20 17:25 同步状态:空闲 下次计划:2026-04-20 18:25

PR 列表

已合并 982 · 已分析 982
更多筛选
2026-04-03

#21998 [NPU] Optimized the wording in the npu docs

原始 PR · 作者 amote-i · 合并时间 2026-04-03 11:51

文档 重要性 2.00 洞察度 1.00

优化NPU文档术语,将separation统一为disaggregation并移除不支持参数描述。

对于一般开发者,无需精读此PR,除非关注NPU文档细节或术语一致性。变更简单直接,主要价值在于维护文档质量。

基础设施 重要性 6.00 洞察度 3.00

回滚 MUSA 硬件的 FA3 注意力后端支持,移除相关依赖和代码。

建议工程师查看回滚是否彻底移除所有 MUSA 相关代码,并关注后续是否重新引入 MUSA 支持或替代方案。对于涉及硬件后端的开发,值得关注此 PR 以理解依赖管理风险。

缺陷修复 重要性 5.00 洞察度 4.00

修复bench_one_batch中DP-Attention并行元数据错误,确保性能分析准确性。

该PR值得快速浏览,特别是对于涉及性能分析、DP-Attention配置或调度器开发的工程师。关注从硬编码到使用现有函数的简化设计决策,这体现了代码复用和一致性的最佳实践。

功能 重要性 6.00 洞察度 6.00

默认启用多模态图像分裂,移除MULTI_IMAGES模态,提升缓存命中率。

建议技术管理者和工程师精读此PR,重点关注_try_simple_split函数的实现和处理器层的变更,以理解多模态缓存优化设计;同时注意向后兼容性风险和后续ViT优化方向,可作为多模态性能调优的参考案例。

#19135 qwen3 vl skip layer id for pp

原始 PR · 作者 narutolhy · 合并时间 2026-04-03 10:51

缺陷修复 重要性 5.00 洞察度 4.00

修复 Qwen3-VL MoE 模型在启用流水线并行时因加载非本地层权重而崩溃的问题。

该 PR 值得精读,特别是对于从事多模态模型或流水线并行开发的工程师。关注点包括:1) 权重加载中如何优雅处理流水线并行的层分布;2) 视觉语言模型中语言模型与视觉编码器权重的区分逻辑;3) 与非 MoE 版本(qwen3_vl.py)和纯语言 MoE 版本(qwen3_moe.py)的一致性设计。

功能 重要性 7.00 洞察度 6.00

为 NVFP4 量化模型引入 Marlin fallback 支持,使非 Blackwell GPU(SM75+)能运行 FP4 模型。

建议精读 `marlin_utils_fp4.py` 和内核修复部分,关注设计决策如自动 GPU 检测和条件隔离。注意 review 中提到的测试覆盖率和 PCG 问题,未来可能需补充数值验证和 tracing 支持。

缺陷修复 重要性 6.00 洞察度 5.00

修复函数调用 JSON 模式中 maxItems=1 限制导致的模型停滞问题。

该 PR 值得精读,特别是设计决策如何通过 parallel_tool_calls 参数平衡灵活性与控制,以及 JSON 模式生成的修改方式,展示了 API 兼容性与功能修复的结合。

#21633 [Diffusion][NPU] Add support for MOVA

原始 PR · 作者 LLThomas · 合并时间 2026-04-03 10:33

功能 重要性 6.00 洞察度 6.00

为MOVA扩散模型添加NPU硬件支持,优化RoPE和内存格式兼容性。

建议涉及NPU开发或Diffusion模型的工程师精读此PR,关注平台检测设计(如current_platform.is_npu)、RoPE优化策略(torch_npu.npu_rotary_mul集成)以及如何处理硬件不兼容性(如channels_last_3d和complex128临时修复)。这些设计决策值得学习,以应对类似跨平台支持场景。

参与讨论