Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 10:11 同步状态：空闲下次计划：2026-06-07 11:11

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-27

#12662 [CPU] Add support for Qwen3-vl and Qwen3-omni

原始 PR · 作者 blzheng · 合并时间 2026-05-27 08:56

功能重要性 8.51 洞察度 6.00

为 CPU 添加 Qwen3-VL / Omni 前端支持

值得详细阅读。代码设计体现了对异构硬件后端（CPU AMX）的良好抽象（通过 `QKV_BACKEND_IMPL` 字典），并且在 Review 中展现了在性能与代码干净度之间权衡的典型过程（移除 hack、defer 性能问题）。为后续多模态模型 CPU 支持提供了模板。

featurecpumultimodal

#24994 [diffusion] model: support a new model

原始 PR · 作者 nv-dmajchrowski · 合并时间 2026-05-27 08:51

功能重要性 9.18 洞察度 6.00

支持 Cosmos3 世界模型，实现 T2V/I2V/T2I 生成

值得精读，特别是以下设计决策： - 双路径 DiT 的架构（Understanding 与 Generation 的分离）。 - 权重映射函数的设计，展示了如何将 diffusers 格式转换为自定义并行模型。 - 安全护栏的可插拔设计。 - 讨论中关于注意力后端兼容性的取舍。

featurediffusiontest

#26187 Wire YARN rope_parameters through LFM2 and LFM2-MoE attention

原始 PR · 作者 tugot17 · 合并时间 2026-05-27 07:00

缺陷修复重要性 5.53 洞察度 4.00

修复 LFM2 模型 YARN RoPE 参数未正确传递的问题

此 PR 值得合并，修复了一个 silent correctness bug，改动量极小且正确性有验证数据支撑。推荐精读以理解类似配置兼容性问题的处理模式（优先新键、安全 fallback），这一模式已在多个模型（如 Qwen3）中复用。

bugfixdeepseeklora

#25911 Purge usage of pytorch named tensors

原始 PR · 作者 jbschlosser · 合并时间 2026-05-27 05:58

重构重要性 6.72 洞察度 5.00

移除PyTorch named tensors依赖，避免向上兼容风险

建议阅读核心文件 `tensor_naming.py` 的变更，理解如何用私有属性模拟命名语义。该模式可推广到其他需要绕过废弃 API 的场景。同时也值得查看 review 讨论中关于原地修改与非连续张量的设计权衡。

refactordebugginginfra

#25025 dp: refactor idle batch logic

原始 PR · 作者 happierpig · 合并时间 2026-05-27 05:22

重构重要性 5.84 洞察度 5.00

重构 idle batch 逻辑并修复 dp=1 场景问题

建议精读该 PR，尤其是讨论中关于 idle batch 与 `_update_gather_batch` 解耦的设计权衡。虽然改动较小，但涉及对 dp attention 同步机制的理解，对维护多 GPU 并行策略的工程师有参考价值。

refactorschedulingperformance

#26397 Reland "[perf][spec decoding] Skip full-vocab softmax in EAGLE draft when topk == 1 (#26235)"

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-27 05:14

性能优化重要性 6.36 洞察度 6.00

重做 EAGLE 草稿 topk==1 softmax 跳过优化并修复 AMD 回归

该 PR 是一次典型的重做优化并修复平台兼容性的案例，值得关注其平台门控的设计模式。虽然改动小，但涉及回退与重做决策，以及通过代码注释记录回归原因，具有良好的可维护性。建议精读以了解投机解码性能优化与平台差异处理。

performancespeculative-decodingdeepseek

#25023 [NemotronH] V3 Omni wrapper: WeightsMapper + config round-trip

原始 PR · 作者 Kh4L · 合并时间 2026-05-27 04:34

缺陷修复重要性 5.87 洞察度 3.00

修复 NemotronH V3 Omni NVFP4 权重加载

建议检查并合并，属于 bugfix，逻辑清晰，影响范围小。

bugfixquantmultimodal

#26287 [RL] Fix FP8 skip matching for trailing-dot prefixes

原始 PR · 作者 zianglih · 合并时间 2026-05-27 04:30

缺陷修复重要性 6.52 洞察度 5.00

修复 trailing-dot 前缀的 FP8 skip 匹配

建议精读。本 PR 展示了如何在保持向后兼容的前提下修复 dot-boundary 匹配导致的回归，其测试策略值得参考：单元测试聚焦边界条件，集成测试使用真实模型和评估管道验证精度。

bugfixquanttest

第 64 / 356 页 · 共 2844 条

上一页 1 … 62 63 64 65 66 … 356 下一页