Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11

PR 列表

更多筛选
2026-05-27

#12662 [CPU] Add support for Qwen3-vl and Qwen3-omni

原始 PR · 作者 blzheng · 合并时间 2026-05-27 08:56

功能 重要性 8.51 洞察度 6.00

为 CPU 添加 Qwen3-VL / Omni 前端支持

值得详细阅读。代码设计体现了对异构硬件后端(CPU AMX)的良好抽象(通过 `QKV_BACKEND_IMPL` 字典),并且在 Review 中展现了在性能与代码干净度之间权衡的典型过程(移除 hack、defer 性能问题)。为后续多模态模型 CPU 支持提供了模板。

#24994 [diffusion] model: support a new model

原始 PR · 作者 nv-dmajchrowski · 合并时间 2026-05-27 08:51

功能 重要性 9.18 洞察度 6.00

支持 Cosmos3 世界模型,实现 T2V/I2V/T2I 生成

值得精读,特别是以下设计决策: - 双路径 DiT 的架构(Understanding 与 Generation 的分离)。 - 权重映射函数的设计,展示了如何将 diffusers 格式转换为自定义并行模型。 - 安全护栏的可插拔设计。 - 讨论中关于注意力后端兼容性的取舍。

缺陷修复 重要性 5.53 洞察度 4.00

修复 LFM2 模型 YARN RoPE 参数未正确传递的问题

此 PR 值得合并,修复了一个 silent correctness bug,改动量极小且正确性有验证数据支撑。推荐精读以理解类似配置兼容性问题的处理模式(优先新键、安全 fallback),这一模式已在多个模型(如 Qwen3)中复用。

#25911 Purge usage of pytorch named tensors

原始 PR · 作者 jbschlosser · 合并时间 2026-05-27 05:58

重构 重要性 6.72 洞察度 5.00

移除PyTorch named tensors依赖,避免向上兼容风险

建议阅读核心文件 `tensor_naming.py` 的变更,理解如何用私有属性模拟命名语义。该模式可推广到其他需要绕过废弃 API 的场景。同时也值得查看 review 讨论中关于原地修改与非连续张量的设计权衡。

#25025 dp: refactor idle batch logic

原始 PR · 作者 happierpig · 合并时间 2026-05-27 05:22

重构 重要性 5.84 洞察度 5.00

重构 idle batch 逻辑并修复 dp=1 场景问题

建议精读该 PR,尤其是讨论中关于 idle batch 与 `_update_gather_batch` 解耦的设计权衡。虽然改动较小,但涉及对 dp attention 同步机制的理解,对维护多 GPU 并行策略的工程师有参考价值。

性能优化 重要性 6.36 洞察度 6.00

重做 EAGLE 草稿 topk==1 softmax 跳过优化并修复 AMD 回归

该 PR 是一次典型的重做优化并修复平台兼容性的案例,值得关注其平台门控的设计模式。虽然改动小,但涉及回退与重做决策,以及通过代码注释记录回归原因,具有良好的可维护性。建议精读以了解投机解码性能优化与平台差异处理。

缺陷修复 重要性 6.52 洞察度 5.00

修复 trailing-dot 前缀的 FP8 skip 匹配

建议精读。本 PR 展示了如何在保持向后兼容的前提下修复 dot-boundary 匹配导致的回归,其测试策略值得参考:单元测试聚焦边界条件,集成测试使用真实模型和评估管道验证精度。

参与讨论