Repositories / sgl-project / sglang

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态：已开启最近同步：2026-06-07 11:28 同步状态：空闲下次计划：2026-06-07 12:28

PR 列表

最近 1 天最近 3 天最近 7 天

更多筛选

排序重要度开始结束

✕ 清空

标签聚合仓库周报

2026-04-10

#22079 [nvidia] Gemma4 nvfp4 fix

原始 PR · 作者 wenscarl · 合并时间 2026-04-10 08:44

缺陷修复重要性 4.37 洞察度 5.00

修复 GB200 上 Triton attention 寄存器耗尽问题

建议合并以修复 GB200 上的崩溃问题。注意后续可能需要对 sm_120a 和其他 Blackwell 变体进行调整，并考虑是否优化 Lq <= 128 的配置。开发者可关注 flashinfer PR#2959 的进展。

bugfixquantkv-cache

#22241 [sgl] add ability to return logprobs in MultiLayerEagleWorkerV2

原始 PR · 作者 2022tgoel · 合并时间 2026-04-10 07:20

缺陷修复重要性 5.00 洞察度 5.00

修复MultiLayerEagleWorkerV2返回logprobs时崩溃问题，通过重构代码为共享辅助函数。

建议精读compute_spec_v2_logprobs函数的设计，了解如何统一处理spec v2的logprobs计算，这对于推测解码模块的开发者有参考价值。同时，关注测试覆盖的潜在缺口，考虑在后续工作中添加相关CI测试。

bugfixrefactorspeculative-decoding

#22160 [Docker] Optimize Dockerfile for BuildKit layer caching

原始 PR · 作者 ishandhanani · 合并时间 2026-04-10 06:34

基础设施重要性 5.00 洞察度 6.00

重构Dockerfile以支持BuildKit并行构建和优化层缓存，提升构建效率。

建议技术管理者和基础设施工程师精读此PR，它提供了利用BuildKit多阶段并行构建和层缓存优化的经典案例。关注设计决策如阶段拆分策略、依赖安装时机安排、以及如何处理CUDA版本等环境变量。同时，注意review中未完全解决的疑虑，如网关构建的进一步优化，可作为后续改进方向。

performancerun-ci

#22358 Enable DFLASH support for additional model backends

原始 PR · 作者 mmangkad · 合并时间 2026-04-10 05:36

功能重要性 6.00 洞察度 5.00

为多个模型后端启用 DFLASH 支持，扩展推测解码能力。

该 PR 值得精读，特别是关注层索引映射（HF 风格到 SGLang 的转换）和管道并行性处理的设计决策，以及如何通过 set_dflash_layers_to_capture 方法统一扩展模型支持。

featuredeepseekrun-ci

#22323 [Lora] Lora quat info re-factor and support deepseekv3 mla lora

原始 PR · 作者 yushengsu-thu · 合并时间 2026-04-10 05:19

功能重要性 7.00 洞察度 6.00

重构LoRA量化信息提取并新增DeepSeek-V3 MLA融合投影LoRA支持，扩展量化MoE模型适配能力。

该PR值得精读，特别是量化信息重构的设计如何通过抽象方法提升可扩展性，以及ReplicatedLinearWithLoRA中处理不等输出维度的技术方案。建议关注形状管理逻辑和量化兼容性检查，以避免潜在风险。

loradeepseekquant

#22430 [Fix] Fix several bugs on DSA models

原始 PR · 作者 Fridge003 · 合并时间 2026-04-10 03:46

缺陷修复重要性 5.00 洞察度 3.00

修复DSA模型中NSA后端硬编码和草稿模型topk变换方法错误。

该PR值得快速浏览，特别是关注server_args.py中默认配置逻辑的修复，这是防止用户配置被意外覆盖的典型模式。对于nsa_backend.py的修改，建议结合Issue中的错误场景理解其必要性。整体变更较小，但涉及核心配置和注意力机制，建议在相关测试中验证回归。

bugfixrun-cischeduling

#22390 [DSA] Enable all reduce fusion for DSA models

原始 PR · 作者 Fridge003 · 合并时间 2026-04-10 03:42

功能重要性 5.00 洞察度 3.00

为DeepSeek V3.2和GLM-5 DSA模型启用AllReduce融合优化。

该PR实现简单，变更点集中，适合快速了解DSA模型优化配置。值得关注的是：1. 了解AllReduce融合在SGLang中的具体实现机制。2. 查看server_args.py中_handle_model_specific_adjustments方法的完整逻辑，理解模型特定调整的整体设计。3. 关注后续是否有针对这些模型的性能测试结果。

featureschedulingrun-ci

#22322 [Docker] Fix Trivy CVEs, cubin download 403s, and kernels command order

原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-04-10 03:26

基础设施重要性 5.00 洞察度 4.00

修复Docker构建中的安全漏洞、冗余下载和命令顺序问题。

该PR值得基础设施团队精读，展示了Dockerfile优化和安全加固的最佳实践。关注--only-upgrade的使用避免破坏性升级、冗余步骤识别和构建可靠性增强策略。

run-cidependenciessecurity

第 275 / 357 页 · 共 2850 条

上一页 1 … 273 274 275 276 277 … 357 下一页