Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 11:28 同步状态:空闲 下次计划:2026-06-07 12:28

PR 列表

更多筛选
2026-04-10

#22079 [nvidia] Gemma4 nvfp4 fix

原始 PR · 作者 wenscarl · 合并时间 2026-04-10 08:44

缺陷修复 重要性 4.37 洞察度 5.00

修复 GB200 上 Triton attention 寄存器耗尽问题

建议合并以修复 GB200 上的崩溃问题。注意后续可能需要对 sm_120a 和其他 Blackwell 变体进行调整,并考虑是否优化 Lq <= 128 的配置。开发者可关注 flashinfer PR#2959 的进展。

缺陷修复 重要性 5.00 洞察度 5.00

修复MultiLayerEagleWorkerV2返回logprobs时崩溃问题,通过重构代码为共享辅助函数。

建议精读compute_spec_v2_logprobs函数的设计,了解如何统一处理spec v2的logprobs计算,这对于推测解码模块的开发者有参考价值。同时,关注测试覆盖的潜在缺口,考虑在后续工作中添加相关CI测试。

基础设施 重要性 5.00 洞察度 6.00

重构Dockerfile以支持BuildKit并行构建和优化层缓存,提升构建效率。

建议技术管理者和基础设施工程师精读此PR,它提供了利用BuildKit多阶段并行构建和层缓存优化的经典案例。关注设计决策如阶段拆分策略、依赖安装时机安排、以及如何处理CUDA版本等环境变量。同时,注意review中未完全解决的疑虑,如网关构建的进一步优化,可作为后续改进方向。

功能 重要性 6.00 洞察度 5.00

为多个模型后端启用 DFLASH 支持,扩展推测解码能力。

该 PR 值得精读,特别是关注层索引映射(HF 风格到 SGLang 的转换)和管道并行性处理的设计决策,以及如何通过 set_dflash_layers_to_capture 方法统一扩展模型支持。

功能 重要性 7.00 洞察度 6.00

重构LoRA量化信息提取并新增DeepSeek-V3 MLA融合投影LoRA支持,扩展量化MoE模型适配能力。

该PR值得精读,特别是量化信息重构的设计如何通过抽象方法提升可扩展性,以及ReplicatedLinearWithLoRA中处理不等输出维度的技术方案。建议关注形状管理逻辑和量化兼容性检查,以避免潜在风险。

#22430 [Fix] Fix several bugs on DSA models

原始 PR · 作者 Fridge003 · 合并时间 2026-04-10 03:46

缺陷修复 重要性 5.00 洞察度 3.00

修复DSA模型中NSA后端硬编码和草稿模型topk变换方法错误。

该PR值得快速浏览,特别是关注server_args.py中默认配置逻辑的修复,这是防止用户配置被意外覆盖的典型模式。对于nsa_backend.py的修改,建议结合Issue中的错误场景理解其必要性。整体变更较小,但涉及核心配置和注意力机制,建议在相关测试中验证回归。

功能 重要性 5.00 洞察度 3.00

为DeepSeek V3.2和GLM-5 DSA模型启用AllReduce融合优化。

该PR实现简单,变更点集中,适合快速了解DSA模型优化配置。值得关注的是:1. 了解AllReduce融合在SGLang中的具体实现机制。2. 查看server_args.py中_handle_model_specific_adjustments方法的完整逻辑,理解模型特定调整的整体设计。3. 关注后续是否有针对这些模型的性能测试结果。

基础设施 重要性 5.00 洞察度 4.00

修复Docker构建中的安全漏洞、冗余下载和命令顺序问题。

该PR值得基础设施团队精读,展示了Dockerfile优化和安全加固的最佳实践。关注--only-upgrade的使用避免破坏性升级、冗余步骤识别和构建可靠性增强策略。

参与讨论