Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 12:34 同步状态：空闲下次计划：2026-06-07 13:34

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-05-08

#23951 fix(openai): map reasoning.enabled to thinking AND enable_thinking

原始 PR · 作者 JustinTong0323 · 合并时间 2026-05-08 05:01

缺陷修复重要性 5.17 洞察度 5.00

统一 reasoning.enabled 映射两种 chat_template key

建议合并。该 PR 是来自 #22254 的 9 行独立 bugfix，无外部依赖，解决模型间 thinking key 不一致问题。可后续跟进修复 review 指出的 enabled 与 effort='none' 同时设置时的优先级问题。

bugfixtestconsistency

#24592 [MUSA] Bump torchada to 0.1.54

原始 PR · 作者 yeahdongcn · 合并时间 2026-05-08 02:45

其他重要性 2.74 洞察度 2.00

MUSA torchada 版本从 0.1.53 升级到 0.1.54

建议合并，确保 MUSA 平台能与上游 CUDA 功能保持同步。合并前可验证 torchada 0.1.54 版本已正确发布且安装无问题。

dependenciesmthreads

#24330 fix(router): configure HTTP client connection settings

原始 PR · 作者 revanthreddy-hai · 合并时间 2026-05-08 02:42

功能重要性 8.02 洞察度 4.00

使 SGLang Model Gateway 的 HTTP 客户端连接设置可配置

值得阅读，尤其适合想了解如何为 reqwest HTTP 客户端添加可配置选项的 Rust 开发者。PR 展示了从配置定义、CLI 参数、序列化、构建器、验证到最终使用的完整数据流，设计清晰。

model-gatewaydocumentationfeature

#23248 [NPU][diffusion] add selectable parallel VAE decode strategies

原始 PR · 作者 gxxx-hum · 合并时间 2026-05-08 02:37

功能重要性 9.00 洞察度 7.00

为 Qwen-Image VAE 解码添加可选择的并行策略

值得精读，特别是 fused 自定义算子的设计模式（CUDA Triton + PyTorch fallback）和并行策略选择逻辑。对于希望扩展 VAE 解码到其他模型的开发者有参考价值。

diffusionnpufeature

#20922 :sparkles: [diffusion][npu][quant] Add MXFP8 quantization support for Wan2.2 Diffusion on Ascend NPU

原始 PR · 作者 TallMessiWu · 合并时间 2026-05-08 02:30

功能重要性 9.18 洞察度 6.00

为 Ascend NPU 扩散模型添加 MXFP8 在线/离线量化支持

建议精读，特别是在线与离线方案的设计分离、NPU 专用量化层的实现，以及 wan_repack.py 的 bug 修复方法。这些模式可用于在其他硬件上扩展量化支持。

quantnpudiffusion

#18172 [NPU]Support model Trinity-mini for Npu, accuracy 90%

原始 PR · 作者 McZyWu · 合并时间 2026-05-08 01:58

功能重要性 7.39 洞察度 6.00

NPU 支持 Trinity-mini 模型，准确率 90%

该 PR 展示了如何针对特定硬件后端适配 MoE 模型，值得 NPU 和 MoE 相关开发者阅读。关键设计决策包括设备感知的导入策略、TopK 参数的动态组合、以及 NPU 算子的统一调用方式。建议在后续 PR 中补充 GPU 回归测试并抽象设备判断逻辑。

npufeaturebugfix

#24494 [diffusion] Precompute LTX2 guidance perturbation states

原始 PR · 作者 mickqian · 合并时间 2026-05-08 01:18

性能优化重要性 7.95 洞察度 5.00

预计算 LTX2 扰动状态，缓存复用掩码

该 PR 设计简洁，变更聚焦，适合作为无损性能优化的参考案例。阅读者可以重点理解 `_ltx2_build_batched_perturbation_states` 函数中缓存复用掩码的设计。不过，当前缺乏针对性测试，建议后续补充扰动场景的性能/压力测试。

diffusionperformancerefactor

2026-05-07

#24614 [AMD] Route PR multimodal tests to MI325

原始 PR · 作者 yctseng0211 · 合并时间 2026-05-07 23:26

基础设施重要性 3.79 洞察度 2.00

AMD 多模态测试路由到 MI325 并开启并发

该 PR 属于基础设施调整，技术深度较低。建议快速合入，但可提醒后续关注 MI325 资源使用率和并发稳定性的监控。

amdcitest

第 162 / 357 页 · 共 2850 条

上一页 1 … 160 161 162 163 164 … 357 下一页