Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-05-08
缺陷修复 重要性 5.17 洞察度 5.00

统一 reasoning.enabled 映射两种 chat_template key

建议合并。该 PR 是来自 #22254 的 9 行独立 bugfix,无外部依赖,解决模型间 thinking key 不一致问题。可后续跟进修复 review 指出的 enabled 与 effort='none' 同时设置时的优先级问题。

#24592 [MUSA] Bump torchada to 0.1.54

原始 PR · 作者 yeahdongcn · 合并时间 2026-05-08 02:45

其他 重要性 2.74 洞察度 2.00

MUSA torchada 版本从 0.1.53 升级到 0.1.54

建议合并,确保 MUSA 平台能与上游 CUDA 功能保持同步。合并前可验证 torchada 0.1.54 版本已正确发布且安装无问题。

功能 重要性 8.02 洞察度 4.00

使 SGLang Model Gateway 的 HTTP 客户端连接设置可配置

值得阅读,尤其适合想了解如何为 reqwest HTTP 客户端添加可配置选项的 Rust 开发者。PR 展示了从配置定义、CLI 参数、序列化、构建器、验证到最终使用的完整数据流,设计清晰。

功能 重要性 9.00 洞察度 7.00

为 Qwen-Image VAE 解码添加可选择的并行策略

值得精读,特别是 fused 自定义算子的设计模式(CUDA Triton + PyTorch fallback)和并行策略选择逻辑。对于希望扩展 VAE 解码到其他模型的开发者有参考价值。

为 Ascend NPU 扩散模型添加 MXFP8 在线/离线量化支持

建议精读,特别是在线与离线方案的设计分离、NPU 专用量化层的实现,以及 wan_repack.py 的 bug 修复方法。这些模式可用于在其他硬件上扩展量化支持。

功能 重要性 7.39 洞察度 6.00

NPU 支持 Trinity-mini 模型,准确率 90%

该 PR 展示了如何针对特定硬件后端适配 MoE 模型,值得 NPU 和 MoE 相关开发者阅读。关键设计决策包括设备感知的导入策略、TopK 参数的动态组合、以及 NPU 算子的统一调用方式。建议在后续 PR 中补充 GPU 回归测试并抽象设备判断逻辑。

性能优化 重要性 7.95 洞察度 5.00

预计算 LTX2 扰动状态,缓存复用掩码

该 PR 设计简洁,变更聚焦,适合作为无损性能优化的参考案例。阅读者可以重点理解 `_ltx2_build_batched_perturbation_states` 函数中缓存复用掩码的设计。不过,当前缺乏针对性测试,建议后续补充扰动场景的性能/压力测试。

2026-05-07

#24614 [AMD] Route PR multimodal tests to MI325

原始 PR · 作者 yctseng0211 · 合并时间 2026-05-07 23:26

基础设施 重要性 3.79 洞察度 2.00

AMD 多模态测试路由到 MI325 并开启并发

该 PR 属于基础设施调整,技术深度较低。建议快速合入,但可提醒后续关注 MI325 资源使用率和并发稳定性的监控。

参与讨论